Verwendung von Google Sheets als grundlegender Web Scraper – PromptCloud-Leitfaden
Veröffentlicht: 2022-11-08Google Suite als Web Scraper
Google Sheets haben einige fantastische Funktionen und sind leicht zugänglich. Es erledigt den größten Teil der schweren Arbeit zum Extrahieren bestimmter Datenpunkte und Abschnitte. Das Scraping von Google Sheets für Website-Daten funktioniert, indem Sie die Importsyntax verwenden und sich mit Google Script oder einem Python-Add-On vertraut machen. Wie die Forschung sagt, funktionieren Web-Scraping-Dokumente am besten mit Leuten, die Websites und Foren regelmäßig analysieren. Unsere Dateningenieure und Führungskräfte an der Produktfront verwenden Produkte wie PromptCloud für ein robusteres Erlebnis beim Scannen von Webdaten. In diesem Blog finden Sie Informationen zur Verwendung von Google-Suite-Formeln, zum Importieren von Daten von Websites und zu den Einschränkungen bei der Verwendung von Google-Tabellen als Web Scraper. Aber schauen wir uns zunächst die Formeln zur Strukturierung der Daten an.
Syntax zum Ziehen von Webdaten in Blätter
Nachfolgend sind die Web-Scraping-Formeln aufgeführt, die Sie zum Extrahieren von Daten verwenden können.
XML importieren
Diese Syntax wird verwendet, um Daten von einer strukturierten URL abzurufen, die auf HTML- und XML-Feeds basiert. Sie können Details zu Seitentiteln, Daten und Autorennamen abrufen. Mit einer Abfrage können Sie entscheiden, welcher Abschnitt der Webseite gescrapt werden soll. Diese Funktion unterstützt auch CSV- und ATOM-XML-Feeds ohne Verwendung eines Codes. Scannen Sie die URL der Webseite und suchen Sie mit XPath den Abschnitt, um durch die Elemente zu navigieren. Die gescannten Daten können einem XML-Dokument zugeordnet werden. Beginnen Sie mit einem neuen Google-Tabellendokument und fügen Sie die URL der Webseite hinzu, von der Sie die Daten entfernen möchten. Wenn Sie den Xpath des Elements finden, verwenden Sie die ImportXML-Syntax und erhalten Sie strukturierte Webdaten. Bewegen Sie den Mauszeiger über den Abschnitt, gehen Sie zu Optionen, klicken Sie auf Inspizieren und wählen Sie Xpath kopieren, um Daten in das neue Blatt zu extrahieren.
Führen Sie die Xpath-URL mit einigen geringfügigen Änderungen in die Blätter ein, insbesondere wenn Sie Chrome verwenden. Die von diesem Browser kopierten URLs schließen den Pfad immer in doppelte Klammern ein. Um die Website zu scrapen, müssen die doppelten Klammern jedoch in ein einfaches Anführungszeichen geändert werden. Optimieren Sie außerdem zunächst den Seitentitel und senden Sie die Abfrage, um die Hauptelemente der Webseite zu erfassen. In wenigen Sekunden gibt die Abfrage die Informationen im Google-Sheet in einem strukturierten Format zurück.
ImportHTML
Diese Syntax wird hauptsächlich zum Erstellen von Listen und zum Importieren von Tabellen von der Website verwendet. Diese Funktion importiert die Tabelle nicht nur einfach, sondern aktualisiert auch die abgerufenen Daten in regelmäßigen Abständen. Ein HTML-Syntax-Scan nach Datenpunkten wie Tabellen-Tags, ungeordneten Listen und geordneten Listen-Tags im Text, um die Daten aus der Webseite zu kopieren. Für den Import von Daten über HTML muss die URL in doppelte Anführungszeichen gesetzt werden, wobei die Tabelle ordnungsgemäß indexiert werden muss. Der Prozess wird schwierig, wenn Sie mehr als eine Tabelle auf der Seite scannen müssen. Hier müssen Sie den Scan über die Entwicklerkonsole oder das Menü mit F12 auf der Tastatur bedienen. Kopieren Sie die Formel in der Konsole zum Indizieren von Elementen.
Um nur bestimmte Spalten oder Zeilen zu importieren, können Sie den Filter in der Syntax zum Abrufen von Daten verwenden. Als allgemeine Google-Anzugseinstellung wird das Dokument alle 1 Stunde aktualisiert. Wenn Sie jedoch Echtzeitdaten benötigen, können Sie die Aktualisierungsgeschwindigkeit entsprechend einstellen. Um die Seitenaktualisierung zu automatisieren, reicht die Verwendung eines Triggers wie code.gs und myfunction aus. Es sendet auch Benachrichtigungen, wenn der Trigger nicht mehr funktioniert oder die Tabellen nicht mehr aktualisiert werden. Google Sheets kann bis zu 50 wiederkehrende ImportHTML-Anforderungen verarbeiten.

ImportFEED
Diese Syntax wird verwendet, um Inhalte von einer Seite direkt in Google Sheets zu scannen. ImportFeed bietet Ihnen Zugriff auf RSS und granulare Feeds zum automatischen Importieren von Daten. Sie senden eine Abfrage zum Importieren der Daten mit Codes wie StartRow zum Auswählen derselben Zeile zum Kopieren von Daten und NumberRow zum Quantifizieren der Menge der gescannten Daten. Wenn Sie den Zellbereich angeben, werden Daten aus Atom-Feeds über einen angegebenen URL-Pfad importiert. Die von dieser Syntax erfassten Daten sind nützlich, um Blogs und Artikel zu verstehen. Durch die Verwendung von Argumenten wie Abfrage und Header wird dem Crawler genau mitgeteilt, welche Informationen benötigt werden und von welchem Pfad.
ImportData und ImportRange
Die obige Syntax ImportData wird zum Scannen und Kopieren von Daten aus verschiedenen Quellen und Google-Tabellen verwendet. Während ImportRange einen Abschnitt der Webseite kopiert. Wie der Name schon sagt, ist Bereich importieren die wichtigste und nützlichste Funktion in Google Tabellen, da sie Zellen aus unabhängigen Tabellen kopieren kann. Mit einer Abfrage können Sie die Daten wie jeden anderen Datensatz suchen, filtern und sortieren. Abfrage als Funktion spart viel Zeit beim Umgang mit mehreren Tabellenkalkulationen und kann zusammen für zwei beliebige Formeln verwendet werden. Wie bereits erwähnt, hilft die Abfrage dabei, Daten auf vielfältige Weise zu manipulieren, und die Importfunktion entscheidet, wie die Daten angezeigt werden.
Importieren von Daten von Websites
Wir haben gesehen, wie man Google Suite-Formeln verwendet, um den Forschungsaufwand zu verringern und zu lernen, wie man Daten von Websites importiert. Praktische Erfahrungen mit diesen beiden Dingen zu sammeln, gibt Ihnen das Selbstvertrauen, Web Scraping mit Google Sheets für tägliche Aufgaben durchzuführen.
Google-Tabelle: Tabellen
Das Scraping von Tabellen von der Website ist einfach, aber es muss richtig durchgeführt werden. Klicken Sie auf eine beliebige leere Zelle, schreiben Sie die Import-Syntax und fügen Sie die URL ein, die Sie kratzen möchten, und fügen Sie die Tabellennummer zur URL hinzu. Führen Sie diese Funktion aus und Sie sehen, dass die Tabelle mit einer ganzen Tabelle gefüllt ist. Verwenden Sie das Array von Werten innerhalb der Indexfunktion, um die Zeilen und Spalten zu filtern.
Überschriften und Titel
Diese Funktion eignet sich besser zum Durchsuchen von Schlagzeilen und Titeln von Nachrichtenartikeln und den neuesten Blogs. Sobald Sie die spezifische URL und eine Kennung im HTML-Skript identifiziert haben, kann der Crawler zu den Headern geleitet werden. Diese Methode ist nützlich, wenn Sie mehr als 50 Websites scannen müssen, um sich eine Meinung zu einem Thema zu bilden. Da jede Website anders aufgebaut ist, ändert sich die Identifikator-URL ständig, und dann kann ein Web-Scraping-Tool wie PromptCloud hilfreich sein, um Ihre Geschäftsanforderungen zu erfüllen.
Content-Feed
Diese Funktion kann verwendet werden, um alle aktuellen Inhalte von Websites, Blogs und Artikeln zu importieren. Sie können diese Daten herausfiltern, indem Sie Abfragen zu Top-Blogs und aktuellen Blogs senden. Senden Sie außerdem eine URL-Abfrage, um Ihre eigene Feed-Liste zu erstellen. Diese Methode wird hauptsächlich von Unternehmen verwendet, um zu verfolgen, wie Wettbewerber Inhaltsaktualisierungen auf ihren Websites und Social-Media-Seiten veröffentlichen.
Einschränkungen bei der Verwendung von Blättern als Scraper
Die grundlegende Verwendung von Google Sheets ist nicht das Scraping von Webdaten. Daher können wir Einschränkungen bei der Verwendung von Blättern erwarten, wenn die Menge und die Rate, mit der die Daten geschabt werden, berücksichtigt werden. Sobald die Scraping-Nummer 50 Zeilen oder 100 überschreitet, stürzt Google einfach ab oder kommt mit einem Fehler zurück. Einfache Dinge wie das Verstehen der Webinhalte und deren entsprechende Trennung werden mithilfe von Google-Funktionalitäten sortiert.
Fazit
Mit Google Sheets können Sie H1-Daten, Titel, Beschreibungen und Seitenlinks auslesen. So sehr, dass Sie Off-Page-Inhalte wie Metatitel und Beschreibungen aus einer Webseite herausziehen können. Sie können auch Webseiten mit mehreren Autoren kratzen, indem Sie Import- und Indexcodes kombinieren. Insgesamt bietet Ihnen die Google-Tabelle eine gute Erfahrung beim Scrapen von Webdaten, solange die Menge quantifizierbar und vordefiniert ist. Es eignet sich am besten für kleine Projekte auf Teamebene oder eignet sich hervorragend für die Durchführung eines universitären Forschungsprojekts. Wenn Sie umfangreiche Projekte haben, wenden Sie sich für benutzerdefiniertes Web Scraping an [email protected] .
