最佳網頁抓取示例 - Promptcloud

已發表: 2019-08-19
目錄顯示
使用 Python 抓取房地產數據
從頂級旅遊門戶網站抓取酒店數據
抓取社交媒體數據
從像 Genius️ 這樣的網站使用 Python 抓取歌曲歌詞
從 Yahoo️ Finance 等網站刮取股票數據 Python
從電子商務網站上抓取產品數據、定價和評論
來自 BBC、紐約時報、半島電視台等網站的新聞網站數據
抓取作業數據
抓取研究所需的圖像和文本數據
用於內容創建的 Web 抓取

數據已成為每家公司增長戰略的關鍵組成部分。 在收集數據方面,有很多可用的資源。 然而,由於兩個原因,手動收集數據很困難 - a) 出錯的機會增加,以及 b) 耗時的過程。 收集數據的更好方法是從網絡上抓取數據,簡而言之,網絡抓取。 一旦您建立了一個系統來從某些站點抓取數據並在您的業務工作流程中使用抓取的數據,您就可以繼續使用同一個系統多年。 今天我們將討論我們在 PromptCloud 遇到的一些頂級網絡抓取示例。

使用 Python 抓取房地產數據

這是世界上最受歡迎的數據之一。 大多數機器學習書籍或課程都從一組房子、它們的細節和價格開始,在繼續學習複雜的 ML 模型之前教授線性回歸。 美國一些頂級房地產網站包含數以百萬計的房屋買賣記錄。 它們甚至包含租金價格、幾年後房屋價格的估計等。我們從領先網站上抓取數據,您可以檢查這些鏈接以及帶有多個數據點的 JSON 文件。

示例 1

[代碼語言=“python”] {
“描述”:“327 101st St #1A, Brooklyn, NY 是一個 3 床、3 浴、1302 平方英尺的止贖房屋。 登錄 Trulia 以接收所有止贖信息。”,
“鏈接”:“https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215”,
“價格”: {
“金額”:“510000”,
“貨幣:美元”
},
“廣泛描述”:“非常大的複式單元,一樓設有一個成品娛樂室、一個娛樂室和一個半浴室。 二樓設有 2 間臥室、2 間設備齊全的浴室、起居室/餐廳和室外空間。 有 Verrazano Bridge views.n 查看我們的止贖指南”,
“概述”: [
“公寓”,
“3張床”,
“3個浴室”,
“建於 2006 年”,
“特魯利亞的 5 天”,
“1,302 平方英尺”,
“392 美元/平方英尺”,
“143 次觀看”
] }
[/代碼]

示例 2

[代碼語言=“python”] {
“Details_Broad”:{
“房間數”:4,
“樓層尺寸(平方英尺)”:“1,728”
},
“地址”: {
“街道”:“格蘭特大街 638 號”,
“地點”:“北鮑德溫”,
“地區”:“紐約”,
“郵政編碼”:“11510”
},
“標題”:“638 Grant Ave, North Baldwin, NY 11510 | MLS #3137924 | 齊洛”,
“Detail_Short”:“638 Grant Ave , North baldwin, NY 11510-1332 是一棟單戶住宅,售價 299,000 美元。 這座 1,728 平方英尺的住宅是一個 4 床、2.0 浴室的房產。 在 Zillow 上查找 638 Grant Ave 住宅的 31 張照片。 在 Zillow 上查看更多房產詳情、銷售歷史和 Zestimate 數據。 MLS # 3137924”,
“以美元計價”:299000,
“圖片”:“https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg”
}
[/代碼]

從頂級旅遊門戶網站抓取酒店數據

酒店預訂網站包含大量數據,例如價格、評論、評分、對酒店進行評分的人數等等。 我們在另一篇文章中展示瞭如何從最大的酒店點評預訂公司抓取數據。

使用名為 Beautiful Soup 的 HTML 解析庫,我們能夠抓取多個數據點。 使用下面給出的一小段代碼,您可以訪問網站,獲取 HTML 內容並將其轉換為 Beautiful Soup 對象。 完成此操作後,解析對象並在具有特定屬性的特定標籤中查找特定數據點是一項簡單的任務。

[code language=”python”] warnings.simplefilter(“ignore”)#用於忽略SSL證書錯誤
ctx = ssl.create_default_context()
ctx.check_hostname = 假
ctx.verify_mode = ssl.CERT_NONE
url=input(“輸入酒店網址-”)
html = urllib.request.urlopen(url, context=ctx).read()
湯 = BeautifulSoup(html, 'html.parser')
html = soup.prettify(“utf-8”)
酒店_json = {}
[/代碼]

獲取網頁的 HTML 內容並將其轉換為 Beautiful Soup 對象的代碼。

抓取社交媒體數據

用戶數據的最大來源之一是社交媒體。 無論您是想檢查人們是否喜歡特定的歌曲、電影或公司,社交媒體數據都可以幫助您了解用戶情緒並跟踪公司的公眾聲譽。 在 PromptCloud,我們從 Twitter️、Instagram️ 甚至 YouTube️ 抓取數據。 這三個中的數據點都是不同的。 例如,來自 Instagram 的數據抓取工作是這樣的。

[代碼語言=“python”] 用戶:Ariana Grande (@arianagrande)
追隨者:130.5m
關注:1,348
帖子:3,669
[/代碼]

從 Instagram 帳戶中抓取的數據

但是,我們從 YouTube️ 上抓取的數據點完全不同。 一個例子是從一首著名歌曲中抓取的數據,這導致了在線挑戰本身。

[代碼語言=“python”]

{
“TITLE”:“Drake – In My Feelings(歌詞、音頻)“Kiki Do you love me”,
“CHANNEL_NAME”:“特殊團結”,
“NUMBER_OF_VIEWS”:“278,121,686 次觀看”,
“喜歡”:“2,407,688”,
“不喜歡”:“114,933”,
“NUMBER_OF_SUBSCRIPTIONS”:“614K”,
“哈希標籤”:[
“#InMyFeelings”,
“#德雷克”,
“#蠍”
] }
[/代碼]

從 YouTube️ 頁面抓取的數據

對於 Twitter,需要注意的是,我們需要一個開發者帳戶,並且我們可以為每個帳戶抓取推文,直到該特定用戶的最後 3240 條推文的計數為止。 因此,您可以看到不同的網絡抓取示例可以有不同的方法和結果。

從像 Genius️ 這樣的網站使用 Python 抓取歌曲歌詞

刮歌詞是自古以來人們所做的事情。 唯一的區別是現在您可以在幾秒鐘內更輕鬆地抓取歌詞,使用一段代碼而不是花費數小時或數分鐘手動完成。 一個這樣的例子就是這篇文章,我們展示瞭如何從一個名為 Genius 的流行音樂網站上抓取歌詞和其他相關數據。

由於該網站包含的不僅僅是歌詞,我們還能夠捕獲評論、標題和發布日期等數據點。

從 Yahoo️ Finance 等網站刮取股票數據 Python

股市數據是一個龐大的數據存儲庫,通常由研究市場並決定在哪裡下注的人進行分析。 當前和歷史數據都具有很大價值。 一個可以很容易被抓取以獲取不同公司股票信息的網站是雅虎財經。 股票信息不僅意味著當前的股票價格,因為我們也可以使用此過程抓取許多其他數據點。

這些是我們為 Apple️ 抓取的數據點

[代碼語言=“python”] {
“PRESENT_VALUE”:“198.87”,
“PRESENT_GROWTH”:“-0.08 (-0.04%)”,
“其他詳情”: {
“PREV_CLOSE”:“198.95”,
“打開”:“199.20”,
“出價”:“198.91 x 800”,
“問”:“198.99 x 1000”,
“TD_VOLUME”:“27,760,668”,
“AVERAGE_VOLUME_3MONTH”:“28,641,896”,
“MARKET_CAP”:“937.728B”,
“BETA_3Y”:“0.91”,
“PE_RATIO”:“16.41”,
“EPS_RATIO”:“12.12”,
“EARNINGS_DATE”:[
“2019 年 4 月 30 日”
],
“DIVIDEND_AND_YIELD”:“2.92 (1.50%)”,
“EX_DIVIDEND_DATE”:“2019-02-08”,
“ONE_YEAR_TARGET_PRICE”:“193.12”
}
}
[/代碼]

從電子商務網站上抓取產品數據、定價和評論

對於不同產品及其當前市場價格的信息,沒有比亞馬遜️這樣的大型電子商務公司更好的收集數據的地方了。 雖然 Amazon️ 在不同的類別和子類別,甚至在世界各地的不同地區確實有不同的頁面佈局,但您可以安全地在有限的類別中抓取少量數據,正如我們在此頁面上顯示的那樣,我們在其中抓取了產品數據和定價信息.

使用該代碼,您可以提取文章的價格及其主要特徵。 一旦您需要定期抓取的鏈接準備就緒,您就可以以特定頻率運行您的代碼。 通過這種方式,您將能夠跟踪該項目的價格變化並利用它。

來自 BBC、紐約時報、半島電視台等網站的新聞網站數據

如今,新聞聚合器的需求量很大。 它們是直接幫助用戶提高生產力的最佳網絡抓取示例之一。 人們再也沒有時間瀏覽報紙甚至整個網頁了。 那麼新聞聚合器有什麼不同呢?

  • 新聞聚合器收集新聞並僅顯示一兩行簡短地解釋新聞文章。 如果您想了解更多信息,可以單擊鏈接,他們會將您定向到實際的新聞網頁。
  • 他們匯總來自 BBC️ 和紐約時報️ 等大型新聞機構的新聞文章,這通常有助於為您提供更全面的圖片和更多細節。
  • 隨著時間的推移,該應用程序會確定您的好惡,並根據您過去的使用情況為您提供新聞文章。

你看,這些是讓新聞聚合器與眾不同的一些東西,然而,所有這些過程的第一步是聚合數據,這通常只是從不同網站上抓取新聞文章。

抓取作業數據

招聘是一個與房地產行業一樣的行業,由於網絡抓取和互聯網繁榮,它得到了巨大的推動。 如今,您可以從公司網站和流行的基於互聯網的工作委員會抓取工作列表,然後使用收集的數據來促進您的業務。 無論您是招聘公司還是諮詢公司,或者您自己經營一個工作委員會,都必須抓取工作數據。 JobsPikr 是我們眾多網絡抓取解決方案之一,它使獲取更新的工作列表以管理您的戰略勞動力規劃和有效地運營業務變得非常簡單。 它是一個完全自主的工作發現工具,可以使用標題、位置、職位等過濾器為您獲取新的工作列表。

抓取研究所需的圖像和文本數據

在研究不同的機器學習模型時,研究項目需要大量數據。 即使要訓練計算機區分狗和貓的圖片,您也需要數千張狗和貓的圖片。 此類數據需求通過網絡抓取解決方案得到解決,如今科學家們抓取 Google 圖像和其他圖像源以獲取其項目的圖像。 我使用 Twitter 數據收集洪水期間上傳到社交媒體網站的圖像。 我試圖將與洪水相關的圖像與不相關的圖像區分開來。

用於內容創建的 Web 抓取

公司需要定期構建高質量的內容,以提高知名度、教育客戶、建立品牌並促進銷售。 在互聯網上抓取內容有助於營銷和廣告人員獲得更好的想法、集思廣益,並提出吸引客戶和增加銷售額的新方法。

雖然我們解釋了一些網絡抓取示例,但可能性是無窮無盡的,並且網絡抓取是不同業務在不同場景中可以利用的東西。 歸根結底,它有助於利用數據的力量使流程和決策更智能。