Portia-Alternativen für die Extraktion von Webdaten

Veröffentlicht: 2019-07-15
Inhaltsverzeichnis anzeigen
Welche Vorteile bieten visuelle Web Scraper?
In welchen Bereichen greifen visuelle Web Scraper zu kurz?
Welche anderen Alternativen haben wir?
DaaS-Anbieter vs. internes Team?
Fazit

Portia war ein visuelles Tool, mit dem Benutzer Websites ohne Programmierkenntnisse durchsuchen konnten. Es war ein gehosteter Dienst, aber aufgrund der schwindenden Nutzung von Visual Scrapern wurde er heruntergefahren und wird heute nicht mehr verwendet. Wie haben die Leute Portia benutzt, als es noch existierte? Um Portia zu verwenden, müssten Sie das URL-Muster eingeben, das besucht werden muss, und dann Elemente auf diesen Webseiten mit Point-and-Click-Gesten oder mithilfe von CSS oder XPath auswählen. Obwohl es einfach zu bedienen ist, waren die größten Probleme mit Portia die folgenden:

  • Im Vergleich zu anderen Open-Source-Web-Scraping-Tools war es ein zeitaufwändiges Tool, um die Kontrolle darüber zu erlangen.
  • Das Navigieren auf Websites war schwierig zu handhaben.
  • Sie mussten die Zielseiten erwähnen, als Sie mit dem Crawlen begannen, um zu verhindern, dass Portia unnötige URLs besucht.
  • Es gab keine Möglichkeit, eine Datenbank anzuschließen, um Ihre abgekratzten Datenpunkte zu speichern.

Welche Vorteile bieten visuelle Web Scraper?

Wenn Sie eine einmalige Web-Scraping-Anforderung haben, können Sie einen visuellen Web-Scraper verwenden, aber die Verwendung als Teil eines Geschäftsablaufs wird nicht empfohlen. Falls Sie ein Unternehmen führen, in dem Sie Daten von sehr wenigen statischen Webseiten crawlen müssen, und das zu sehr gelegentlich (z Funktionsweise eines visuellen Web Scrapers innerhalb weniger Stunden und dann von Zeit zu Zeit die Extraktion von Webdaten. Visuelle Web-Crawler sind besonders hilfreich für kleine Unternehmen, denen ein Technikteam fehlt und die winzige Scraping-Anforderungen haben.

Ein visueller Webcrawler ist fast dasselbe wie jemand, der auf einer Webseite auf „Elemente prüfen“ klickt und Daten aus dem HTML-Inhalt kopiert und einfügt. Wenn Sie stattdessen einen visuellen Web Scraper verwenden, klicken Sie am Ende auf einen Teil der Webseite und die Software kopiert die Daten für Sie an einen Ort Ihrer Wahl.

Portia-Alternativen

In welchen Bereichen greifen visuelle Web Scraper zu kurz?

Visuelle Schaber greifen jedoch zu kurz, wenn Sie ernsthaft schweres Heben zu tun haben.

Möglicherweise müssen Sie das Scraping einiger Daten in Ihren Geschäftsablauf einbeziehen (der automatisiert sein sollte).
Daten müssen möglicherweise über Hunderte oder Tausende von Seiten gekratzt und sehr häufig aktualisiert werden.

Möglicherweise ist für ein bestimmtes Geschäftsmodul ein Live-Feed mit abgekratzten Daten erforderlich. In den meisten der oben genannten Fälle wäre ein Code-basierter Web-Scraper viel praktischer als ein visueller Scraper.

Die meisten Mass-Scraping-Projekte haben die Notwendigkeit, eine Menge ähnlicher Webseiten zu crawlen, um Daten über verschiedene Elemente zu extrahieren. Diese Elemente können von Fluginformationen auf E-Booking-Websites bis hin zu Produktdetails auf E-Commerce-Websites reichen. Die in solchen Szenarien angewandte Logik besteht darin, dass Sie versuchen, das Muster zu verstehen, in dem Daten auf Webseiten gespeichert werden, indem Sie einige wenige Webseiten verwenden, und einen Code verwenden, der nicht nur Seiten mit genau derselben Struktur, sondern sogar Seiten mit einer ähnlichen Struktur crawlen kann . Auch beim Scrapen aller auf einer Website verfügbaren Seiten müssen Seiten mit einer bestimmten Struktur möglicherweise ignoriert werden. Alle diese Anpassungen sind auf einem visuellen Scraper nicht möglich, und daher wird das Scrapen zu vieler Seiten mit einem visuellen Scraper nicht empfohlen.

Auf der anderen Seite des Spektrums müssen Sie aufgrund von Änderungen im Aussehen und Verhalten von Websites alle paar Wochen oder Monate Ihren visuellen Web Scraper möglicherweise jedes Mal trainieren, wenn sich die Benutzeroberfläche einer Website ändert. Auf der anderen Seite, wenn ein Code-basierter Scraper verwendet wird, erfordert eine UI-Änderung oft nicht einmal Änderungen am Scraper, da die Website strukturell immer noch gleich bleiben kann. Auch wenn es einige Änderungen in der Benutzeroberfläche gibt, die eine Änderung des Schabers erfordern, sind die Änderungen normalerweise minimal und die Anpassung des Schabers an die Änderungen ist einfach genug.

Welche anderen Alternativen haben wir?

Es gibt viele Alternativen zu Portia. Sprachen wie Python, R und Golang werden von Entwicklern und Web-Scraping-Teams auf der ganzen Welt zum Extrahieren von Webdaten aus Webseiten verwendet. Es werden neue Wege entwickelt, um den Prozess zu beschleunigen. Beispielsweise können Sie mithilfe von paralleler Programmierung und Caching in Golang mithilfe des Pakets namens Colly benutzerdefinierte Einstellungen wie die folgenden verwenden:

  1. Die Anzahl der Seiten, die Sie zu einem bestimmten Zeitpunkt gleichzeitig crawlen möchten.
  2. Maximale Tiefe, die der Scraper erreichen sollte, sobald er mit dem Scrapen von einer Webseite beginnt. (Das bedeutet, dass, wenn Sie die maximale Tiefe auf 3 setzen, die oberste Seite gecrawlt wird, zu einer darin gefundenen URL geht, sie crawlt, dann zu einer auf dieser Seite gefundenen URL geht und diese auch crawlt, aber jetzt auf der dritten Seite, wenn es eine URL findet, geht es nicht weiter).
  3. Sie können eine Prüfung auf in URLs vorhandene Wörter festlegen – das heißt, wenn ein Wort in einer URL vorhanden ist, muss die Webseite in dieser URL gekratzt werden. Oder Sie können Ausschlüsse festlegen – URLs mit einem bestimmten Wort sollten vom Scraper nicht aufgerufen werden.

Dies sind nur einige Beispiele für Hunderte von winzigen Funktionen, die Sie erhalten, wenn Sie einen Web Scraper selbst erstellen.

DaaS-Anbieter vs. internes Team?

Die meisten Unternehmen, denen ein technisches Team fehlt, oder sogar Mitglieder ohne grundlegende Kenntnisse einer Skriptsprache, sollten versuchen, kein internes Scraping-Team aufzubauen. Der Grund dafür ist einfach. Das Geld, das Sie ausgeben, um Entwickler zu rekrutieren und sie dann dazu zu bringen, ein völlig neues Web-Scraping-System für Ihre Geschäftsanforderungen zu erstellen und zu warten, wäre enorm. Und am Ende des Tages, wenn Sie ein kleines Unternehmen sind und Web-Scraping nicht der Treibstoff für Ihr Geschäft ist (das heißt, Ihr Geschäft dreht sich nicht um die Daten, die Sie aus dem Internet kriechen), dann macht es keinen Sinn, ein zu bauen internes Team.

Die einfache Lösung sind in diesem Fall die DaaS-Anbieter, die Ihre Anforderungen aufnehmen und Ihnen Ihre Daten in einem Format Ihrer Wahl zur Verfügung stellen. Unser Team bei PromptCloud ist sehr stolz darauf, Web Scraping auf einen zweistufigen Prozess für Unternehmen und Konzerne zu reduzieren.

Fazit

Während visuelle Tools gut für Geschäftsteams sind, sind wir uns einig, dass Web Scraping nicht nur eine einfache Geschäftsaufgabe ist. Es ist eine Aufgabe, die effizient, schnell und vollständig anpassbar sein muss. Wenn Sie großvolumige Web-Scraping-Anforderungen haben oder eine Web-Datenextraktion in viel größerem Umfang durchführen möchten, wird empfohlen, Web-Scraping-Dienste zu verwenden.

Wenn Sie sich nicht mit Programmierung auskennen oder Ihre Anforderungen komplex sind, können Sie einen vollständig verwalteten Dienstanbieter wie PromptCloud verwenden, um saubere Daten auf automatisierte Weise ohne technischen Aufwand oder das Erlernen eines Tools zu erhalten.