新谷歌數據集搜索引擎的完整指南 – Promptcloud

已發表: 2018-10-18
目錄顯示
為什麼谷歌現在建立這個?
為什麼該程序仍處於測試階段?
那麼,如何使用谷歌數據集搜索呢?

當我編寫我的第一個機器學習算法時,我使用了 UC Irvine 託管的龐大數據集來學習。 有很多數據集可供練習,確切地說是 442 個。 但問題是,這些數據集已被世界各地的大量人使用,幾乎所有可以從它們那裡獲得的發現都已經發表。 此外,數據科學在許多領域都取得了進展。 您可能想要研究無限類型的數據集。 在這種情況下,442 是微不足道的,幾乎是滄海一粟,谷歌數據集搜索也是如此。

但是,每當我們需要搜索某些東西時,我們都會“谷歌”它,對嗎? 因此,如果我需要一個包含某個地區癌症患者詳細信息的數據集,以確定居住在城市地區是否會增加患上這種致命疾病的機會,我很可能最終會“谷歌搜索”它。 但是,您需要了解的是,Google 是基於單詞匹配工作的。 當你搜索它而不是給你實際的數據集時,它更有可能獲取帶有“癌症患者數據集”字樣的文章。 這也是谷歌在今年 9 月 5 日推出谷歌數據集搜索測試版的原因。

所以現在,您可以搜索關鍵字,並找到與之關聯的數據集。 但是你需要用什麼來搜索? 我們都知道在 Google 上搜索時有用的某些技巧和提示。 搜索特定谷歌時是否適用任何此類規則? 確實,根據 Google 的說法,如果您提供數據集名稱、描述、創建者信息和格式(CSV、JSON 等)等信息,您會發現從 Google 搜索引擎中獲取數據集要容易得多)。 借助全新的搜索引擎,甚至可以發現標記語言的數據集。

對於希望谷歌在他們的網站中找到數據集並將其展示給用戶的人,谷歌表示雖然該功能處於試點階段,但事情正在進展,您可以通過向您的網站添加結構化數據來開始添加數據集,他們將當人們使用相關術語進行搜索時,最終會出現在搜索引擎中。

為什麼谷歌現在建立這個?

嗯,網絡上有成千上萬個包含數據的存儲庫,它們反過來提供對數百萬個數據集的訪問。 這些數據集可能屬於國家、國際或地區政府、非營利組織,甚至是希望讓公眾參與處理其數據集的公司。 研究機構和高等教育學院公開持有大量數據集。 訪問所有這些數據集至關重要,以促進信息的輕鬆流動。 被困在 1000 美元費用下的數據集可能超出了許多可以從數據中理解的研究人員的能力範圍。

但問題在於音量。 互聯網上有如此多的數據,即使您可以將其縮小到一個類別、子類別、區域等,也很難找到一個特定的數據集。 您可以指定是否要查找有關疾病、電影、植物、動物、災難、UFO 目擊等的數據。 從理論上講,您應該能夠輕鬆找到這些。 但目前並非如此。

谷歌正在通過允許人們附加一些特定格式的元數據來解決這個問題,這些格式將受一些標準的約束,以幫助谷歌更輕鬆地跟踪數據集。 這些元數據將幫助谷歌讓公眾輕鬆訪問數據集。

為什麼該程序仍處於測試階段?

雖然大多數技術問題已經得到解決,但主要挑戰是一些仍未得到解答的問題。 其中一些問題是——數據集的通用定義是什麼? 單個表可以稱為數據集嗎? 表的集合呢? 圖片文件夾? 你怎麼說文件夾中的圖像是相關的? 或者一起找到的表是相關的? 提供數據集的 API 怎麼樣? 是否可以使用某些參數關聯相似的數據集?

問題是數據集建立時間長,並且以多種不同的格式存儲,沒有辦法找到原始數據或元數據,或者可以從互聯網深處立即識別它們的標籤這就是谷歌正在努力的方向。 因此,他們建議上傳數據的人遵循適當的慣例,以及在研究中使用數據的人提供適當的引用。 畢竟,谷歌只是一個搜索引擎。 它向我們展示了預先存在的數據。 它無法找到不處於被找到狀態的東西。 除非人們開始負責任地處理數據,通過以推薦的格式存儲數據並添加元數據和引用,否則隨著越來越多的數據集每天被添加到網絡中,事情只會變得更糟。

那麼,如何使用谷歌數據集搜索呢?

您可以搜索各種類型的數據集。 根據谷歌的說法,數據集可以是以下任何一種——

  • 一堆相互關聯的表格
  • CSV 或表格格式的數據
  • 一組圖像或視頻
  • 任何包含數據的專有格式文件
  • 共同構成某種形式的數據集的文件集合
  • 像 JSON 這樣的對象,可以對其進行處理以構建數據集。
  • 二進制模型,例如由 Tensorflow 生成的模型
  • 任何肉眼看起來都像是數據集的東西。

這就是搜索引擎的樣子,你可以像往常一樣在 Google 網絡搜索中搜索一些內容:

谷歌數據集搜索引擎圖像1 所以當我搜索一個住房數據集時,我遇到了這個結果:

谷歌數據集搜索引擎圖像2

你可以看到谷歌試圖展示與我輸入的兩個詞相關的最相關和最流行的數據集,在這種情況下,Kaggle 有許多已被數千用戶使用的住房數據集,因此這些數據集位於最佳。

接下來,我搜索了一些更具體的東西。 並得到以下結果:

谷歌數據集搜索引擎圖像3

這一次,您可以看到,由於我搜索了特定的內容,Google 能夠將資源精確定位給我,從而幫助我更快地擴展我的工作。 谷歌還為我提供了一些基本描述和鏈接,以更多地了解我想要使用的數據集。

這樣的服務是天賜之物,我希望在我開始學習數據科學時能夠使用它。 我建議您繼續在 Google 上搜索數據集,並嘗試提供有關您嘗試搜索的數據集的盡可能多的信息,以便為您的項目、研究或研究找到最合適的數據集。 同時,如果您需要的數據在網絡上還沒有現成的格式,您可以隨時與我們聯繫以設置自定義抓取。

尋找網絡抓取服務來為您提取數據,請聯繫 PromptCloud