Beispieldaten sind großartig! Aber es ist nur die halbe Geschichte
Veröffentlicht: 2017-05-16Wenn Sie die Extraktion von Webdaten in Betracht gezogen haben, um Ihr Geschäft zu verbessern, oder an einem DIY-Web-Scraper-Tool herumgebastelt haben, um sich mit dem Scraping vertraut zu machen, sollte Ihnen die hochdynamische Natur des Webs nichts Neues sein. Websites sind sehr dynamisch und werden ständig aktualisiert. Obwohl diese Änderungen größtenteils subtil sind, stellen sie eine ernsthafte Herausforderung für jeden dar, der sich in die Extraktion von Webdaten wagt, da die strukturellen Änderungen auf Websites die Crawler unbrauchbar machen könnten.

Als vollständig verwaltete Lösung zur Extraktion von Webdaten beschäftigen wir uns ständig mit der Einrichtung von Crawlern, Datenspeicherung, Deduplizierung und allem, was mit Web-Crawling zu tun hat.
Wir sehen unsere Kunden jedoch oft allein auf Beispieldaten angewiesen, um das Datenextraktionsprojekt als Ganzes zu bewerten. Die bereitgestellten Beispieldaten geben zwar eine schnelle Vorstellung davon, wie die Daten bei der Lieferung aussehen würden, garantieren jedoch in der Anfangsphase kein nahtloses Crawling, was Sie möglicherweise überraschen wird. Das Crawler-Setup kann nur einen stabilen Zustand erreichen, indem es die Probleme beseitigt, die am Anfang zwangsläufig auftreten werden. Aus diesem Grund sollten Sie sich mindestens 3 Monate Zeit nehmen, um ein Web-Crawling-Projekt zu evaluieren, damit es Stabilität erlangt und sich mit der Anwendung der Daten in Ihrem Unternehmen vertraut macht.
Beispieldaten zeigen Ihnen nicht das vollständige Bild
Obwohl wir sagen, dass Beispieldaten keine nahtlose wiederkehrende Extraktion garantieren, bedeutet dies nicht, dass die gelieferten Daten anders wären. Das Wichtige, an das Sie sich hier erinnern sollten, ist, dass das Extrahieren von Daten aus einer Webseite zum Erstellen einer Beispieldatendatei völlig anders ist als das Crawlen dieser Website mit einem automatisierten Webcrawler-Setup. Es gibt viele Website-Elemente, die ins Spiel kommen, sobald wir mit dem automatisierten Crawling beginnen, die bei der Beispieldatenextraktion übersehen werden. Diese Probleme können zwar behoben werden, aber nur so, wie es kommt. Aus diesem Grund betonen wir die 3-monatige Sperrfrist für jedes Web-Scraping-Projekt, das wir in Angriff nehmen.
Hier sind einige Probleme beim Webcrawling, die erst gefunden und behoben werden können, wenn das automatische Crawling begonnen hat.
1. Überwindung von Datenunterbrechungsproblemen
Es ist schwer vorherzusagen, wie sich eine Website verhalten wird, wenn das Crawling im Gegensatz zu einer einmaligen Extraktion automatisiert wird. Es können Probleme auftreten, die zu Datenverlust führen können, die möglicherweise nicht in der Beispieldatenextraktion angezeigt werden. Die Ursachen können von der Konfiguration des Servers der Zielseite bis hin zu Störungen durch Popups, Umleitungen und defekte Links reichen. Solche Probleme können nicht durch einmaliges Crawling identifiziert werden, aus dem Beispieldaten erstellt werden. Sobald die Crawls regelmäßig laufen, werden diese unvorhergesehenen Probleme, die auftauchen, umgangen, um den Crawler zu stabilisieren. Daher sind geringfügige Unterbrechungen des Datenflusses während der Anfangsphase des automatisierten Crawls normal und sollten keinen Anlass zur Sorge geben. Wir beheben diese Engpässe umgehend, um einen reibungslosen Ablauf zu gewährleisten.

2. Optimierung der Liefergeschwindigkeit
Die Geschwindigkeit einer Website hängt von vielen Faktoren ab, wie z. B. dem DNS-Anbieter, der Serverqualität und dem Datenverkehr sowie anderen unvorhergesehenen Faktoren. Diese Geschwindigkeit kann auch zu verschiedenen Tageszeiten stark variieren. Da die Website-Geschwindigkeit einen großen Einfluss auf die Zeit hat, die zum Crawlen einer Website benötigt wird, dauert es eine Weile, die Crawling-Zeit für jede Website zu optimieren, damit die Lieferpläne eingehalten werden. Da auch dieser Aspekt des Krabbelns anfangs nicht vorhersehbar ist, sind kleinere Unregelmäßigkeiten in der Lieferzeit in der Anfangsphase normal.
Web-Crawling kann nur mit der Zeit perfektioniert werden
Angesichts der Dynamik und Unvorhersehbarkeit von Websites im Internet dauert es bei jedem Web-Crawling-Projekt eine Weile, bis ein stabiles Tempo erreicht ist. Unvorhergesehene Probleme, die Teil des Handels sind, treten normalerweise erst nach einer Weile auf und können nur behoben werden, wenn sie auftreten. Aus diesem Grund fordern wir unsere Kunden auf, mindestens 3 Monate zu bleiben, bevor sie einen stabilen Zustand erreichen, in dem Probleme behoben sind und die Crawls nahtlos ablaufen.
Auswertung des gelieferten Wertes bei Ihnen
Wie bei allem braucht es einige Zeit, um die Ergebnisse zu bewerten, die Sie aus einem Projekt zur Extraktion von Webdaten erhalten würden. Es ist keine gute Idee, abschließende Schlussfolgerungen darüber zu ziehen, wie die Daten Ihnen helfen könnten, indem Sie nur die Beispieldaten auswerten. Hier sind einige Dinge über die Daten, die Sie nur im Laufe der Zeit herausfinden können.
1. Ist die Größenordnung überschaubar?
Wenn Big Data neu für Sie ist, kann es einschüchternd sein, mit großen Datenmengen umzugehen. Obwohl unsere Lösung skalierbar ist und umfangreiche Anforderungen erfüllen kann, benötigen Sie möglicherweise ein Upgrade der Big-Data-Infrastruktur, wenn die Daten ankommen. Die Ermittlung der optimalen Routen zur Nutzung der Daten ist etwas, das Sie nur mit der Zeit meistern können.
2. Wird Handarbeit benötigt?
Wir liefern die Daten in mehreren Formaten und über verschiedene Bereitstellungsmethoden, einschließlich einer REST-API. Dies sollte im Idealfall dazu führen, dass Sie nur sehr wenig manuelle Arbeit an den Daten vornehmen müssen. Abhängig von Ihren spezifischen Anforderungen (einschließlich Datenverbrauch) müssen Sie jedoch möglicherweise einige manuelle Arbeiten erledigen. Wenn dies der Fall ist, möchten Sie möglicherweise technisches Personal einstellen oder Ihre vorhandenen Mitarbeiter für die Abwicklung des Projekts schulen.
3. Feinabstimmung der Anforderung
Die Anforderungen an die Extraktion von Webdaten erfordern häufig eine Feinabstimmung, wenn Sie sich an die Datensätze gewöhnen und Spielraum für eine weitere Verwendung finden. Die meisten Menschen übersehen zu Beginn des Projekts bestimmte Felder, Quellwebsites und die Crawl-Frequenz. Im Laufe der Zeit könnten sich einige Felder, die ignoriert wurden, als nützlich erweisen, oder Sie möchten die Daten möglicherweise in einer höheren Häufigkeit. Dies macht erneut deutlich, dass Sie sich Zeit für das Datenextraktionsprojekt nehmen sollten, bevor Sie prüfen, wie es Ihnen helfen kann.
Fazit
Nicht jede Website ist gleich aufgebaut und die Probleme, die in den späteren Phasen wiederkehrender Crawls auftauchen könnten, sind am Anfang schwer vorherzusagen. Die größte und schwierigste Herausforderung bei der Datenextraktion ist die Wartung der Crawler, die von Zeit zu Zeit eine ständige Überwachung und intelligente Problemumgehungen erfordert. Wenn Sie Ihre Reise zur Extraktion von Webdaten beginnen, ist es wichtig, sich dieser Herausforderungen bewusst zu sein, die Teil des Web-Crawlings sind, und ihm ausreichend Zeit zu geben, für Sie zu arbeiten.
