Die besten Web-Scraping-Beispiele – von Promptcloud
Veröffentlicht: 2019-08-19Daten sind für jedes Unternehmen zu einem zentralen Bestandteil der Wachstumsstrategie geworden. Wenn es um das Sammeln von Daten geht, stehen viele Quellen zur Verfügung. Das manuelle Sammeln von Daten ist jedoch aus zwei Gründen schwierig – a) erhöhte Fehlerwahrscheinlichkeit und b) zeitaufwändiger Prozess. Eine bessere Möglichkeit, Daten zu sammeln, besteht darin, Daten aus dem Internet zu crawlen, kurz Web Scraping. Sobald Sie ein System eingerichtet haben, um Daten von bestimmten Websites zu crawlen und die gekratzten Daten in Ihrem Geschäftsablauf zu verwenden, können Sie dasselbe System viele Jahre lang verwenden. Heute werden wir einige der besten Web-Scraping-Beispiele besprechen, auf die wir bei PromptCloud gestoßen sind.
Scraping von Immobiliendaten mit Python
Dies ist eine der begehrtesten Daten der Welt. Die meisten Bücher oder Kurse zum maschinellen Lernen beginnen mit einer Reihe von Häusern, ihren Details und ihren Preisen, um die lineare Regression zu lehren, bevor sie zu komplexen ML-Modellen übergehen. Einige der besten Immobilien-Websites in den USA enthalten Millionen von Datensätzen von Häusern, die auf dem Markt sind oder nicht. Sie enthalten sogar Mietpreise, Schätzungen der Hauspreise nach einigen Jahren usw. Wir haben die Daten von führenden Websites abgekratzt, und Sie können diese Links zusammen mit den JSON-Dateien mit den mehreren Datenpunkten überprüfen.
Beispiel 1
[code language=”python”] {
„Beschreibung“: „327 101st St #1A, Brooklyn, NY ist ein 1302 Quadratfuß großes Haus mit 3 Schlafzimmern und 3 Bädern in Zwangsvollstreckung. Melden Sie sich bei Trulia an, um alle Informationen zur Zwangsvollstreckung zu erhalten.”,
„Link“: „https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215“,
"Preis": {
„Betrag“: „510000“,
"Währung: USD"
},
„breite Beschreibung“: „Sehr große Maisonette-Einheit im 1. Stock mit einem fertigen Freizeitraum, einem Unterhaltungsraum und einem halben Badezimmer. Zweite Ebene verfügt über 2 Schlafzimmer, 2 Badezimmer, ein Wohn-/Esszimmer und einen Platz im Freien. Es gibt Aussicht auf die Verrazano-Brücke.
"Überblick": [
„Eigentumswohnung“,
„3 Betten“,
„3 Bäder“,
„Baujahr 2006“,
„5 Tage auf Trulia“,
„1.302 qm“,
„$392/m²“,
„143 Aufrufe“
] }
[/Code]
Beispiel 2
[code language=”python”] {
„Details_Breit“: {
„Anzahl Zimmer“: 4,
„Fußbodengröße (in Quadratfuß)“: „1.728“
},
"Adresse": {
„Straße“: „638 Grant Ave“,
„Ortschaft“: „Nord Balduin“,
„Region“: „NY“,
„Postleitzahl“: „11510“
},
„Titel“: „638 Grant Ave, North Baldwin, NY 11510 | MLS #3137924 | Zilow“,
„Detail_Short“: „638 Grant Ave, North Baldwin, NY 11510-1332, ist ein Einfamilienhaus, das für 299.000 $ zum Verkauf angeboten wird. Das 1.728 Quadratfuß große Haus ist ein Anwesen mit 4 Schlafzimmern und 2,0 Bädern. Finden Sie 31 Fotos des Hauses 638 Grant Ave auf Zillow. Sehen Sie sich weitere Immobiliendetails, Verkaufshistorie und Zestimate-Daten auf Zillow an. MLS-Nummer 3137924“,
„Preis in $“: 299000,
„Bild“: „https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg“
}
[/Code]
Scraping von Hoteldaten von Top-Reiseportalen
Hotelbuchungswebsites enthalten eine Menge Daten wie Preise, Rezensionen, Bewertungen, die Anzahl der Personen, die das Hotel bewertet haben, und mehr. Wir haben in einem anderen Artikel gezeigt, wie man Daten des größten Buchungsunternehmens für Hotelbewertungen crawlt.
Mit der HTML-Parsing-Bibliothek namens Beautiful Soup konnten wir mehrere Datenpunkte crawlen. Mit dem unten angegebenen kleinen Codestück können Sie die Website aufrufen, den HTML-Inhalt abrufen und ihn in ein Beautiful Soup-Objekt konvertieren. Sobald dies erledigt ist, ist das Analysieren des Objekts und das Auffinden bestimmter Datenpunkte in bestimmten Tags mit bestimmten Attributen eine einfache Aufgabe.
[code language=“python“] warnings.simplefilter(“ignore“)#Zum Ignorieren von SSL-Zertifikatsfehlern
ctx = ssl.create_default_context()
ctx.check_hostname = Falsch
ctx.verify_mode = ssl.CERT_NONE
url=input(“Hotel-URL eingeben – “)
html = urllib.request.urlopen(url, context=ctx).read()
Suppe = BeautifulSoup(html, 'html.parser')
html = Suppe.prettify(“utf-8”)
hotel_json = {}
[/Code]
Code zum Abrufen des HTML-Inhalts einer Webseite und zum Konvertieren in ein Beautiful Soup-Objekt.
Scraping von Social-Media-Daten
Eine der größten Quellen für Benutzerdaten sind soziale Medien. Unabhängig davon, ob Sie überprüfen möchten, ob Personen ein bestimmtes Lied, ein Film oder ein Unternehmen gefallen, können Social-Media-Daten Ihnen dabei helfen, die Stimmung der Benutzer zu verstehen und den öffentlichen Ruf Ihres Unternehmens zu verfolgen. Bei PromptCloud haben wir Daten von Twitter️, Instagram️ und sogar YouTube️ abgekratzt. Die Datenpunkte in allen drei waren unterschiedlich. Bei Instagram funktioniert das Data Scraping beispielsweise so.
[code language=”python”] Benutzer: Ariana Grande (@arianagrande)
Anhänger: 130,5 Mio
Folgend: 1.348
Beiträge: 3.669
[/Code]
Daten, die von Instagram-Konten geschabt wurden
Die Datenpunkte, die wir von YouTube️ abgekratzt haben, waren jedoch völlig anders. Ein Beispiel sind die Daten, die aus einem berühmten Song geschabt wurden, der selbst zu einer Online-Herausforderung geführt hat.
[code language="python"]
{
„TITEL“: „Drake – In My Feelings (Text, Audio) „Kiki, liebst du mich““,
„CHANNEL_NAME“: „Spezialeinheit“,
„NUMBER_OF_VIEWS“: „278.121.686 Aufrufe“,
„Gefällt mir“: „2.407.688“,
„Gefällt mir nicht“: „114.933“,
„NUMBER_OF_SUBSCRIPTIONS“: „614K“,
„HASH_TAGS“: [
„#InMeinenGefühlen“,
"#Erpel",
"#Skorpion"
] }
[/Code]

Daten, die von YouTube️-Seiten geschabt wurden
Für Twitter ist anzumerken, dass wir ein Entwicklerkonto benötigten, und wir konnten Tweets für jedes Konto nur bis zur Zählung der letzten 3240 Tweets dieses bestimmten Benutzers crawlen. Daher können Sie sehen, dass verschiedene Web-Scraping-Beispiele unterschiedliche Ansätze und Ergebnisse haben können.
Kratzen von Liedtexten mit Python von Seiten wie Genius️
Liedtexte zu kratzen ist etwas, das von Menschen seit jeher getan wird. Der einzige Unterschied besteht darin, dass Sie Songtexte jetzt viel einfacher in wenigen Sekunden crawlen können, indem Sie ein Stück Code verwenden, anstatt Stunden oder Minuten damit zu verbringen, dies manuell zu tun. Ein solches Beispiel ist dieser Artikel, in dem wir gezeigt haben, wie Songtexte und andere zugehörige Daten von einer beliebten Musik-Website namens Genius gecrawlt werden.
Da die Website viel mehr als nur Songtexte enthält, konnten wir auch Datenpunkte wie Kommentare, Titel und Veröffentlichungsdatum erfassen.
Scrape Stock Data Python von Seiten wie denen von Yahoo️ Finance
Börsendaten sind ein riesiges Datenarchiv, das normalerweise von Leuten analysiert wird, die den Markt studieren und entscheiden, wo sie ihre Wetten platzieren. Sowohl aktuelle als auch historische Daten sind von großem Wert. Eine Website, die ganz einfach gescrappt werden kann, um Aktieninformationen über verschiedene Unternehmen zu erfassen, ist Yahoo Finance. Mit Aktieninformationen sind nicht nur die aktuellen Aktienkurse gemeint, da wir mit diesem Verfahren auch viele andere Datenpunkte crawlen konnten.
Dies sind die Datenpunkte, die wir für Apple️ abgekratzt haben
[code language=”python”] {
„AKTUELLER_WERT“: „198,87“,
„AKTUELLES_WACHSTUM“: „-0,08 (-0,04 %)“,
"ANDERE DETAILS": {
„PREV_CLOSE“: „198,95“,
„ÖFFNEN“: „199.20“,
„GEBOT“: „198,91 x 800“,
„FRAGEN“: „198,99 x 1000“,
„TD_VOLUME“: „27.760.668“,
„AVERAGE_VOLUME_3MONTH“: „28.641.896“,
„MARKET_CAP“: „937.728B“,
„BETA_3Y“: „0,91“,
„PE_RATIO“: „16,41“,
„EPS_VERHÄLTNIS“: „12,12“,
„VERDIENST_DATUM“: [
„30. April 2019“
],
„DIVIDEND_AND_YIELD“: „2,92 (1,50 %)“,
„EX_DIVIDEND_DATE“: „2019-02-08“,
„ONE_YEAR_TARGET_PRICE“: „193,12“
}
}
[/Code]
Scrapen Sie Produktdaten, Preise und Bewertungen von E-Commerce-Websites
Um Informationen zu verschiedenen Produkten und ihren aktuellen Marktpreisen zu erhalten, gibt es keinen besseren Ort, um Daten zu sammeln, als große E-Commerce-Unternehmen wie Amazon️. Während Amazon️ unterschiedliche Seitenlayouts in verschiedenen Kategorien und Unterkategorien und sogar in verschiedenen Regionen auf der ganzen Welt hat, können Sie eine kleine Datenmenge in begrenzten Kategorien sicher im Web crawlen, wie wir auf dieser Seite gezeigt haben, wo wir Produktdaten und Preisinformationen geschabt haben .
Mit dem Code können Sie den Preis eines Artikels und seine Top-Features extrahieren. Sobald die Links, die Sie regelmäßig crawlen müssen, fertig sind, können Sie Ihren Code mit einer bestimmten Häufigkeit ausführen. Auf diese Weise können Sie Preisänderungen dieses Artikels verfolgen und davon profitieren.
Scrape News-Websites Daten von Websites wie BBC, New York Times, Al Jazeera
Nachrichtenaggregatoren sind heute sehr gefragt. Sie sind eines der besten Web-Scraping-Beispiele, das den Benutzern direkt geholfen hat, ihre Produktivität zu steigern. Die Leute haben keine Zeit mehr, Zeitungen oder gar ganze Webseiten durchzusehen. Was machen Nachrichtenaggregatoren also anders?
- Nachrichtenaggregatoren sammeln Nachrichten und zeigen nur ein oder zwei Zeilen an, die einen Nachrichtenartikel kurz erklären. Falls Sie mehr wissen möchten, können Sie auf einen Link klicken und Sie werden zu einer tatsächlichen Nachrichten-Webseite weitergeleitet.
- Sie sammeln Nachrichtenartikel von großen Nachrichtenagenturen wie der BBC️ und der New York Times️ und oft hilft dies dabei, Ihnen ein vollständigeres Bild mit mehr Details zu vermitteln.
- Mit der Zeit ermittelt die App Ihre Vorlieben und Abneigungen und präsentiert Ihnen Nachrichtenartikel in Abhängigkeit von Ihrer bisherigen Nutzung.
Sie sehen, dies sind einige der Dinge, die Nachrichtenaggregatoren auszeichnen, und doch besteht der erste Schritt in all diesen Prozessen darin, die Daten zu aggregieren, was oft nur darin besteht, Nachrichtenartikel von verschiedenen Websites zu kratzen.
Scraping-Auftragsdaten
Die Personalbeschaffung ist eine Branche, die wie die Immobilienbranche dank Web Scraping und dem Internetboom einen enormen Aufschwung erfahren hat. Heutzutage können Sie Stellenangebote sowohl von Unternehmenswebsites als auch von den beliebten internetbasierten Jobbörsen crawlen und die gesammelten Daten dann verwenden, um Ihr Geschäft anzukurbeln. Unabhängig davon, ob Sie eine Personalvermittlungsfirma oder ein Beratungsunternehmen sind oder selbst eine Jobbörse betreiben, das Scrapen von Stellendaten ist ein Muss. Eine unserer vielen Web-Scraping-Lösungen, JobsPikr, macht es sehr einfach, aktualisierte Stellenangebote zu erhalten, um Ihre strategische Personalplanung zu verwalten und das Geschäft effizient zu führen. Es ist ein völlig autonomes Tool zur Stellensuche, das Ihnen mithilfe von Filtern wie Titel, Standort, Post und mehr eine neue Stellenanzeige abrufen kann.
Scraping von Bild- und Textdaten, die für die Forschung benötigt werden
In Forschungsprojekten werden riesige Datenmengen benötigt, wenn an verschiedenen Modellen des maschinellen Lernens gearbeitet wird. Selbst um den Computer darauf zu trainieren, zwischen dem Bild eines Hundes und einer Katze zu unterscheiden, bräuchte man Tausende von Bildern von Hunden und Katzen. Solche Datenanforderungen werden durch Web-Scraping-Lösungen gelöst, und Wissenschaftler durchsuchen heute Google-Bilder und andere Bildquellen, um Bilder für ihre Projekte zu erhalten. Ich habe Twitter-Daten verwendet, um Bilder zu sammeln, die während einer Überschwemmung auf die Social-Media-Site hochgeladen wurden. Ich habe versucht, Bilder, die mit der Flut zu tun hatten, von denen zu trennen, die es nicht waren.
Web Scraping für die Erstellung von Inhalten
Unternehmen müssen regelmäßig qualitativ hochwertige Inhalte erstellen, um die Sichtbarkeit zu erhöhen, Kunden aufzuklären, eine Marke aufzubauen und den Umsatz zu steigern. Das Scraping von Inhalten im Internet hilft Marketing- und Werbeleuten, bessere Ideen zu entwickeln, Brainstorming durchzuführen und neue Wege zu finden, um Kunden zu gewinnen und den Umsatz zu steigern.
Während wir einige Web-Scraping-Beispiele erklärt haben, sind die Möglichkeiten endlos und Web-Scraping ist etwas, das von verschiedenen Unternehmen in verschiedenen Szenarien genutzt werden kann. Letztendlich hilft es, Prozesse und Entscheidungen intelligenter zu gestalten, indem es die Macht der Daten nutzt.
