為什麼企業將 Web Scraping 外包給 PromptCloud

已發表: 2017-06-24
目錄顯示
網站複雜性增加
提取過程的可擴展性
數據質量和維護
無憂數據提取
跨越技術壁壘
結論

隨著商業世界迅速採用 Web 數據來補充各種數量日益增長的用例,對可靠的 Web 抓取服務的需求激增。 許多企業主經常錯誤地選擇了那些聲稱是從網絡上的任何網站抓取數據的神奇解決方案的 DIY 工具。 關於網絡抓取,首先要了解的是,沒有開箱即用的解決方案可以從任何網站提取數據。

企業級網頁抓取服務

這並不是說那裡的 DIY 網絡抓取工具不起作用——它們確實起作用。 問題是,這些工具只能在一個完美的網絡世界中順利運行,遺憾的是它並不存在。 每個網站在呈現數據的方式上都是不同的——導航、編碼實踐、動態腳本的使用等,使得網站的構建方式存在很大差異。 這就是為什麼製作一個可以處理所有網站的網絡抓取工具是不可行的。

當談到網絡抓取時,工具是不可能的。 理想情況下,從 Web 提取數據應該是一項完全託管的服務,我們在過去 8 年中一直在完善該服務。 您不必相信我們為什麼 Web 抓取工具不適合企業級 Web 數據提取。

我們收集了客戶的一些回复,說明他們為什麼決定改用我們的託管網絡抓取服務,而將“魔術”工具拋在腦後。

網站複雜性增加

這是我們最近在我們的一個博客上收到的評論。

“我正在嘗試抓取黃頁數據。 我找到了一個包含 64 頁商店的列表。 我為公司名稱、地址和電話號碼添加了一個選擇器。 我右鍵單擊每個字段以檢查/複製/複製名稱、地址和電話號碼的選擇器。 我抓取了 URL,僅更改了結尾以讀取 pages/[001-064]。 我點擊了抓取,令我驚訝的是,唯一抓取的數據是頁面 001。我點擊了每個選擇器字段中的多個選項卡(用於姓名、地址和電話)。 為什麼我只獲取第一頁的數據? 抓取工具是否應該知道我想要所有 64 個頁面的每個公司的相同數據(每頁 30 個)? 提前致謝。”

這裡的評論員試圖從分類網站爬取數據,但他使用的工具無法導航到隊列中的內頁,只能抓取第一頁。 這是與網頁抓取工具相關的一個常見問題,它們往往適用於使用簡單導航結構的網站,但如果網站使用即使是中等複雜的導航也會失敗。 為了改善用戶體驗,許多網站現在都在採用基於 AJAX 的無限滾動,這使得這變得更加複雜。 這種動態編碼實踐將使大多數(如果不是全部)網絡爬蟲工具無用。

這裡需要的是完全可定制的設置和專用方法,其中手動和自動層的組合用於確定網站如何接收 AJAX 調用,以便使用自定義構建的爬蟲來模仿它們。 隨著網站的複雜性隨著時間的推移不斷增加,對可定制解決方案而不是死板工具的需求變得更加明顯。

提取過程的可擴展性

這是我們的一位客戶的逐字記錄,說明他們在嘗試構建內部爬網設置後無法擴展流程。

我們自己構建了所有爬蟲,我只是對我們的方式不滿意,因為你有更好的解決方案,我有興趣談談。 我還想要一個最終可以抓取 5000 多個零售網站的解決方案。

許多企業家覺得有必要重新發明輪子。 這也被稱為NIH(此處未發明)綜合症,簡單來說,就是在內部執行流程而不是外包流程的衝動。 當然,有些流程最好在內部完成,客戶支持就是一個很好的例子; 外包客戶支持是褻瀆神明。

但是,網絡抓取不是其中之一。 由於與大規模 Web 數據提取相關的複雜性太小而無法被沒有完全投入其中的公司所掌握,因此這實際上可能是一個致命的錯誤。 我們注意到我們的許多現有客戶嘗試構建內部刮板,但後來才求助於我們的解決方案; 除了失去了一些寶貴的時間和精力。

任何人都可以抓取一個網頁,這是一個事實。 真正的挑戰在於同時提取數百萬個網頁並將所有網頁處理成結構化和機器可讀的數據。 我們的網絡抓取解決方案的 USP 之一是它的可擴展性方面。 我們的高性能服務器集群分散在不同的地理位置,我們建立了一個堅如磐石的基礎設施來大規模提取 Web 數據。

數據質量和維護

我們的一個客戶正在尋找一種可以為他們提供高質量數據的解決方案,因為他們使用的工具無法提供結構化數據。

老實說:我們目前正在使用免費服務,一切運行良好。 我們可以將所有頁面的數據導入到一張 Excel 表格中,然後將它們導入到 podio。 但此時,我們無法成功過濾信息。 但我們正在與他們密切聯繫以解決這個問題。 實際上,由於當前的解決方案有點不穩定,因此需要反复考慮。 您是否有適合我們的現成解決方案?

從網絡中提取信息本身就是一個複雜的過程。 然而,將網絡上的非結構化信息轉化為結構完美、乾淨且機器可讀的數據更具挑戰性。 數據質量是我們引以為豪的事情,您可以從我們之前的博客文章中了解更多關於我們如何保持數據質量的信息。

從長遠來看,非結構化數據與沒有數據一樣好。 如果您的機器無法讀取它,那麼您將無法理解數據中的大量信息。

此外,您不能只是構建一個功能完善的網絡爬蟲設置而忘記它。 網絡本質上是高度動態的。 保持數據質量需要持續努力並使用手動和自動層進行密切監控。 這是因為網站經常更改其結構,這可能導致爬蟲出現故障或停止,這兩者都會影響輸出數據。 數據質量保證和及時維護對於運行網絡爬蟲設置是不可或缺的。 在 PromptCloud,我們對這些方面擁有端到端的所有權。

無憂數據提取

我們最近收集了客戶的反饋,這裡是其中一個回复的摘錄。

我們有自己的解決方案,而且很有效,但它需要不斷調整,竊取寶貴的開發資源。 我相信數據獲取越來越複雜,而通過爬取獲取數據的需求也在不斷增長。

這位客戶現在已經與我們合作了 5 年,過去有自己的網絡爬蟲設置,但希望消除該過程的複雜性和麻煩。 從商業角度來看,這是一個偉大的決定。 任何企業都需要將其唯一的重點放在其核心產品上以實現增長和成功,尤其是考慮到現在所有市場的競爭都處於巔峰狀態。 Web 數據提取帶來的設置、持續維護和所有其他復雜性很容易占用您的內部資源,從而對您的整體業務造成影響。

跨越技術壁壘

這位最近的領導缺乏自行建立和執行網絡爬蟲項目所需的技術專長。

我在想,當我們沒有能力和專業知識自己添加網站時,我們可能會使用你們的方式是根據客戶的要求根據需要添加網站。 我們也沒有您需要從中提取的 URL,因此我們需要蜘蛛站點來提取所有產品頁面。

Web 抓取是一個技術要求很高的過程——這意味著您需要一個有才華的開發人員團隊來設置和部署爬蟲在優化的服務器上進行數據提取。

然而,並不是所有的企業都應該成為抓取專家,因為每個企業都有自己的核心重點。 如果技術不是您的強項,那麼您需要依賴服務提供商為您提取 Web 數據是完全可以理解的。 憑藉我們在網絡數據提取領域多年的專業知識,我們現在能夠承擔任何復雜性和規模的網絡抓取項目。

結論

隨著商業世界對網絡數據的需求不斷增加,公司不可避免地開始尋找更好的方法來獲取網絡上可用數據的金礦。 如果您查看網絡數據提取的各個方面,很明顯將其留給抓取專家是可行的方法。