深度網絡挖掘——它包含什麼以及為什麼需要它
已發表: 2018-06-16所以,你正在寫一篇關於“不那麼常見”的話題的文章,你找不到太多關於它的信息,因為這是一件秘密的事情,被政府封口了。 這並不意味著你已經碰壁了。 也許你只是在錯誤的地方搜索。
根據最近的研究,只有大約 4% 的互聯網被索引,這意味著其中 96% 沒有,而且很難找到沒有被索引的東西。 它根本不會出現在搜索引擎中。 假設您正在搜索“1857 年起義”,並且在深層網絡中有未編入索引的網站包含大量關於起義的信息。 無論您使用 google、bing 或 dadduckgo,它都不會顯示。
深網本身就是一個龐大的信息庫,大部分沒有被自動搜索引擎索引,但那些可以訪問或知道可以幫助您訪問它的工具的人可以輕鬆獲得。
另一方面是 Surface Web 或 Static Web,它是由自動搜索引擎索引的網站集合。 無論您使用的是搜索機器人還是網絡爬蟲,它都會跟踪 url,索引內容,然後將結果轉發回搜索引擎的中央存儲庫以進行整合和用戶查詢。
理想情況下,該過程應該通過整個 Web,但實際上受供應商時間和存儲限制。 無論是搜索還是爬行,痛點都在於索引。 您創建的機器人無法報告不可索引的內容。 這就是為什麼主要搜索引擎只覆蓋 20% 的可能結果。
是什麼讓它“深”?
您將很難抓取這些類別的網站-
- 專有網站
- 需要註冊的網站
- 運行腳本的站點
- 動態網站
- 臨時站點
- 被本地網站管理員屏蔽的網站
- 被搜索引擎政策阻止的網站
- 具有特定特殊格式的站點
- 可搜索的數據庫
如果您想抓取專有網站,通常需要付費。 至於註冊站點,它們需要登錄 ID 和密碼。 機器人可以索引腳本代碼,但它不能總是描述腳本的實際作用。 動態網站的數據是按需創建的,查詢前不存在,查詢後有限存在。 如果您曾經在社交媒體網站或新聞網站上註意到一個有趣的鏈接,但後來發現該鏈接無法訪問,那麼您遇到了一個臨時網站。 大多數格式,以前像 pdf 一樣不可索引,現在很容易索引。

然而,最有價值的深度學習資源是可搜索的數據庫。 有大量安全數據庫,其信息價值數十億。 但它們大多都是不可報廢的。 它們充當各種站點中前端搜索欄的後端 - 這些站點可讓您一次性查看部分數據,但不能查看全部數據。
那麼如何爬取深層網絡呢?
有學術界特定的搜索引擎,如 Factbites,其信息來自字典、百科全書、大學和許多其他非盈利 .org 網站。 深網對於那些知道如何在迷宮中導航的人來說很容易訪問。 許多個人和機構幫助整理了不可見的 Web 目錄,這些目錄可以用作開始 Web 抓取搜索的一個點。 一些例子-
- 密歇根大學的 OAIster(發音為“oyster”),它鼓勵人們在深網中“尋找珍珠”。 他們擁有從非洲期刊在線到瑞士西部圖書館網絡等機構的數百萬條記錄。 所以,你可以猜出多樣性。
- LookSmart 的 https://www.findarticles.com/ 可讓您在印刷出版物中搜索文章,無論是流行雜誌還是學術期刊。
- Library Spot 是從 Deep Web 收集的數據庫、在線圖書館、參考資料和其他優質信息的另一個集合。 他們還有一個特色的“你自問自答”部分,在那裡他們回答了受歡迎的讀者的問題。
- 加州大學洛杉磯分校在線圖書館擁有大量藏品,包括僅在深度網絡中才能找到的特殊館藏。
- 一個有趣的發現是 www.infoplease.com 及其可搜索的 Deep Web 數據庫。 它顯示來自百科全書、字典、年曆和資源的結果,僅從深度網絡中提取。
- 中央情報局(是的,中央情報局,你必須從你可能看過的許多好萊塢電影中認出它。)擁有世界概況,這是一個可搜索的世界國旗目錄,以及參考地圖、國家概況還有更多。 如果您正在處理地理內容,這是一個很好的資源。
- 愛達荷大學有一個主要資源庫,其中包含無數手稿鏈接以及檔案以及稀有書籍等。 它不僅包含與美國有關的信息,還包含與其他國家和其他地方有關的信息。
- 如果您想找到具有某些特徵的植物並且您正在從事農業,您可能會在美國農業部的深網植物數據庫中找到一些會引起您注意的東西。
- 人類基因組數據庫擁有大量信息——幾乎所有人類發現的關於人類基因組的信息。
- 對於醫療問題——綜合健康信息數據庫是一個用戶友好的主題目錄,可以為幾乎所有醫療保健問題提供答案。
結論
這篇文章可能會結束,但你知道嗎? 深網是一種源源不斷的信息來源,它可能會幫助您進行商業活動,甚至是個人致富。 但是,如果您真的想利用那裡找到的數據,並以結構化格式提取信息,以便您可以根據需要使用它並發展您的業務,您應該尋求一直在工作的提供商的幫助在這個領域並幫助其他成功的企業。
