Promptcloud による最高の Web スクレイピングの例

公開: 2019-08-19
目次を見る
Python を使用した不動産データのスクレイピング
トップ旅行ポータルからのホテルデータのスクレイピング
ソーシャル メディア データのスクレイピング
Genius️ のようなサイトから Python を使用して曲の歌詞をスクレイピングする
Yahoo️ Finance のようなサイトから株式データ Python をスクレイプする
eコマースWebサイトから製品データ、価格、およびレビューをスクレイピングする
BBC、New York Times、Al Jazeera などの Web サイトからニュース Web サイトのデータをスクレイピングする
ジョブデータのスクレイピング
研究に必要な画像やテキストデータのスクレイピング
コンテンツ作成のための Web スクレイピング

データは、すべての企業にとって成長戦略の重要な要素となっています。 データの収集に関しては、多くの情報源が利用可能です。 ただし、手動でデータを収集することは、a) ミスの可能性が高くなる、b) 時間がかかるという 2 つの理由から困難です。 データを収集するためのより良い方法は、Web からデータをクロールすること、つまり Web スクレイピングです。 特定のサイトからデータをクロールし、スクレイピングしたデータをビジネス ワークフロー内で使用するシステムをセットアップすると、同じシステムを何年も使用し続けることができます。 今日は、PromptCloud で遭遇したトップの Web スクレイピングの例について説明します。

Python を使用した不動産データのスクレイピング

これは、世界で最も求められているデータの 1 つです。 ほとんどの機械学習の本やコースは、複雑な ML モデルに進む前に、一連の家、その詳細、価格から始まり、線形回帰を教えています。 全米のトップの不動産ウェブサイトのいくつかには、市場に出ているかどうかにかかわらず、何百万もの住宅の記録が含まれています。 賃貸価格、数年後の住宅価格の見積もりなども含まれています。主要なサイトからデータをスクレイピングしたため、これらのリンクと複数のデータ ポイントを含む JSON ファイルを確認できます。

例 1

[コード言語=”パイソン”] {
「説明」: 「327 101st St #1A、ブルックリン、ニューヨークは、差し押さえられた 3 ベッド、3 バス、1302 平方フィートの家です。 すべての差し押さえ情報を受け取るには、Trulia にサインインしてください。",
“リンク”: “https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215”,
"価格": {
「金額」:「510000」、
「通貨」:「米ドル」
}、
「大まかな説明」:「完成したレクリエーションルーム、エンターテイメントルーム、ハーフバスルームを備えた1階の非常に大きなデュプレックスユニット。 2 階には、ベッドルーム 2 室、バスルーム 2 室、リビングルーム/ダイニング ルーム、屋外スペースがあります。 ベラザノ橋の景色があります.n 差し押さえガイドをご覧ください”,
"概要": [
「コンドミニアム」、
「3ベッド」、
「3つのお風呂」、
“2006 年に建てられた”,
「Trulia での 5 日間」、
「1,302平方フィート」、
「$392/平方フィート」、
「143ビュー」
] }
[/コード]

例 2

[コード言語=”パイソン”] {
“Details_Broad”: {
「部屋数」:4、
「床面積(平方フィート)」:「1,728」
}、
"住所": {
「ストリート」:「638グラントアベニュー」、
“産地”: “北ボールドウィン”,
「地域」:「ニューヨーク」、
「郵便番号」:「11510」
}、
「タイトル」:「638 Grant Ave、North Baldwin、NY 11510 | MLS #3137924 | ジロー」、
“Detail_Short”: “638 Grant Ave , North baldwin, NY 11510-1332 は、299,000 ドルで販売されている一戸建て住宅です。 1,728平方フィートの家は、4ベッド、2.0バスの物件です。 Zillow で 638 グラント アベニューの家の 31 枚の写真を見つけてください。 Zillow で物件の詳細、販売履歴、Zestimate データをご覧ください。 MLS # 3137924」、
「価格」: 299000,
「画像」:「https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg」
}
[/コード]

トップ旅行ポータルからのホテルデータのスクレイピング

ホテル予約ウェブサイトには、価格、レビュー、評価、ホテルを評価した人の数など、大量のデータが含まれています。 別の記事で、最大のホテル レビュー予約会社からデータをクロールする方法を示しました。

Beautiful Soup という HTML 解析ライブラリを使用して、複数のデータ ポイントをクロールすることができました。 以下に示す小さなコードを使用して、Web サイトにアクセスし、HTML コンテンツを取得して、それを Beautiful Soup オブジェクトに変換できます。 これが完了すると、オブジェクトを解析し、特定の属性を持つ特定のタグ内の特定のデータ ポイントを見つけるのは簡単な作業です。

[code language="python"] warnings.simplefilter(“ignore”)#SSL証明書エラーを無視する場合
ctx = ssl.create_default_context()
ctx.check_hostname = False
ctx.verify_mode = ssl.CERT_NONE
url=input(“ホテルのURLを入力 – “)
html = urllib.request.urlopen(url, context=ctx).read()
スープ = BeautifulSoup(html, 'html.parser')
html = スープ.prettify(“utf-8”)
hotel_json = {}
[/コード]

Web ページの HTML コンテンツを取得し、それを Beautiful Soup オブジェクトに変換するコード。

ソーシャル メディア データのスクレイピング

ユーザー データの最大のソースの 1 つはソーシャル メディアです。 人々が特定の曲、映画、または会社を気に入っているかどうかを確認する場合でも、ソーシャル メディア データは、ユーザーの感情を理解し、会社の評判を追跡するのに役立ちます。 PromptCloud では、Twitter️、Instagram️、さらには YouTube️ からデータをスクレイピングしました。 3 つすべてのデータ ポイントは異なっていました。 たとえば、Instagram から、データ スクレイピングは次のように機能します。

[code language=”python”] ユーザー: Ariana Grande (@arianagrande)
フォロワー:130.5m
フォロー中: 1,348
投稿数: 3,669
[/コード]

Instagramアカウントからスクレイピングされたデータ

しかし、YouTube️ からスクレイピングしたデータ ポイントはまったく異なっていました。 一例として、オンライン チャレンジ自体につながった有名な曲からスクレイピングされたデータがあります。

[コード言語=”パイソン”]

{
“TITLE”: “Drake – In My Feelings (Lyrics, Audio) “Kiki Do you love me””,
“CHANNEL_NAME”: “特別団結”,
“NUMBER_OF_VIEWS”: “278,121,686 ビュー”,
「いいね」:「2,407,688」、
「嫌い」:「114,933」、
“NUMBER_OF_SUBSCRIPTIONS”: “614K”,
“HASH_TAGS”: [
「#InMyFeelings」、
「#ドレイク」、
「#スコーピオン」
] }
[/コード]

YouTube️ ページからスクレイピングされたデータ

Twitter の場合、開発者アカウントが必要であり、特定のユーザーの最後の 3240 ツイートまでしか、各アカウントのツイートをクロールできませんでした。 したがって、さまざまな Web スクレイピングの例では、さまざまなアプローチと結果が得られることがわかります。

Genius️ のようなサイトから Python を使用して曲の歌詞をスクレイピングする

歌詞を削ることは、太古の昔から人々によって行われてきたことです。 唯一の違いは、手動で何時間も何分も費やす代わりにコードを使用して、数秒ではるかに簡単に歌詞をクロールできるようになったことです。 そのような例の 1 つがこの記事で、Genius というポピュラー音楽 Web サイトから歌詞やその他の関連データをクロールする方法を示しました。

ウェブサイトには歌詞だけでなく多くの情報が含まれているため、コメント、タイトル、リリース日などのデータ ポイントも取得できました。

Yahoo️ Finance のようなサイトから株式データ Python をスクレイプする

株式市場データは、市場を研究し、どこに投資するかを決定する人々によって通常分析されるデータの 1 つの巨大なリポジトリです。 現在および過去のデータはどちらも非常に価値があります。 非常に簡単にスクレイピングしてさまざまな企業の株式情報を取得できる Web サイトの 1 つに Yahoo Finance があります。 このプロセスを使用して他の多くのデータポイントもクロールできたため、株価情報は現在の株価を意味するだけではありません。

これらはAppleのためにスクレイピングしたデータポイントです️

[コード言語=”パイソン”] {
“現在値”: “198.87”,
“PRESENT_GROWTH”: “-0.08 (-0.04%)”,
"その他の詳細": {
“PREV_CLOSE”: “198.95”,
「OPEN」:「199.20」、
「入札」:「198.91×800」、
「お願い」:「198.99×1000」、
“TD_VOLUME”: “27,760,668”,
“AVERAGE_VOLUME_3MONTH”: “28,641,896”,
“MARKET_CAP”: “937.728B”,
「BETA_3Y」:「0.91」、
“PE_RATIO”: “16.41”,
“EPS_RATIO”: “12.12”,
"EARNINGS_DATE": [
“2019 年 4 月 30 日”
]、
“DIVIDEND_AND_YIELD”: “2.92 (1.50%)”,
“EX_DIVIDEND_DATE”: “2019-02-08”,
「ONE_YEAR_TARGET_PRICE」: 「193.12」
}
}
[/コード]

eコマースWebサイトから製品データ、価格、およびレビューをスクレイピングする

さまざまな製品とその現在の市場価格に関する情報については、Amazon️ のような大手 e コマース企業ほどデータを収集するのに適した場所はありません。 Amazon️ は、さまざまなカテゴリやサブカテゴリ、さらには世界中のさまざまな地域でさまざまなページ レイアウトを使用していますが、製品データと価格情報をスクレイピングしたこのページで示したように、限られたカテゴリ間で少量のデータを安全に Web クロールできます。 .

コードを使用して、記事の価格とその主な機能を抽出できます。 定期的にクロールする必要があるリンクの準備ができたら、特定の頻度でコードを実行できます。 このようにして、そのアイテムの価格の変化を追跡し、それを利用することができます.

BBC、New York Times、Al Jazeera などの Web サイトからニュース Web サイトのデータをスクレイピングする

ニュース アグリゲーターは、今日、高い需要があります。 これらは、ユーザーの生産性向上に直接役立つ Web スクレイピングの最高の例の 1 つです。 新聞や Web ページ全体に目を通す時間はもうありません。 では、ニュース アグリゲーターはどのような点で異なるのでしょうか?

  • ニュース アグリゲーターはニュースを収集し、ニュース記事を簡単に説明する 1 行または 2 行のみを表示します。 詳細を知りたい場合は、リンクをクリックすると、実際のニュース Web ページに移動します。
  • BBC️ やニューヨーク タイムズ️ などの大手通信社からのニュース記事を集約し、より詳細な全体像を提供するのに役立つことがよくあります。
  • 時間が経つにつれて、アプリはあなたの好き嫌いを把握し、過去の使用状況に応じてニュース記事を提示します。

ご覧のとおり、これらはニュース アグリゲーターを際立たせる要素の一部ですが、これらすべてのプロセスの最初のステップはデータの集約であり、多くの場合、さまざまな Web サイトからニュース記事をスクレイピングするだけです。

ジョブデータのスクレイピング

リクルーティングは、不動産業界と同様に、Web スクレイピングとインターネット ブームのおかげで大きな成長を遂げた業界の 1 つです。 最近では、企業の Web サイトと人気のあるインターネット ベースの求人掲示板の両方から求人情報をクロールし、収集したデータを使用してビジネスを後押しすることができます。 人材紹介会社、コンサルタント会社、または自分で求人掲示板を運営している場合でも、求人データのスクレイピングは必須です。 多くの Web スクレイピング ソリューションの 1 つである JobsPikr を使用すると、更新された求人情報を簡単に取得して、戦略的な要員計画を管理し、ビジネスを効率的に運営できます。 これは、役職、場所、投稿などのフィルターを使用して新しい求人情報を取得できる、完全に自律的な求人検索ツールです。

研究に必要な画像やテキストデータのスクレイピング

さまざまな機械学習モデルに取り組む研究プロジェクトでは、膨大な量のデータが必要になります。 犬と猫の写真を区別するようにコンピューターをトレーニングする場合でも、何千もの犬と猫の写真が必要になります。 このようなデータ要件は Web スクレイピング ソリューションによって解決され、今日の科学者は Google の画像やその他の画像ソースをクロールして、プロジェクト用の画像を取得しています。 Twitter のデータを使用して、洪水時にソーシャル メディア サイトにアップロードされた画像を収集しました。 洪水に関連する画像とそうでない画像を分けようとしていました。

コンテンツ作成のための Web スクレイピング

企業は、認知度を高め、顧客を教育し、ブランドを構築し、売り上げを伸ばすために、定期的に高品質のコンテンツを構築する必要があります。 インターネット上でコンテンツをスクレイピングすることは、マーケティングや広告の担当者がより良いアイデアを得るのに役立ち、ブレインストーミングを行い、顧客を引き付けて売り上げを伸ばす新しい方法を考え出すのに役立ちます.

Webスクレイピングの例をいくつか説明しましたが、可能性は無限であり、Webスクレイピングはさまざまなシナリオでさまざまなビジネスで利用できるものです. 結局のところ、データの力を利用してプロセスと意思決定をよりスマートにするのに役立ちます。