Deep Web Mining – Was es beinhaltet und warum es benötigt wird
Veröffentlicht: 2018-06-16Sie schreiben also einen Artikel über ein „nicht so alltägliches“ Thema, und Sie können nicht viele Informationen darüber finden, weil es eine geheime Angelegenheit war und von der Regierung totgeschwiegen wurde. Das bedeutet nicht, dass Sie gegen eine Mauer gefahren sind. Vielleicht suchst du einfach an der falschen Stelle.
Laut neueren Studien wurden nur etwa vier Prozent des Internets indexiert, was bedeutet, dass sechsundneunzig Prozent nicht indexiert sind, und es wäre sehr schwierig, etwas zu finden, das nicht indexiert wurde. Es würde einfach nicht in Suchmaschinen erscheinen. Angenommen, Sie suchen nach der „Revolte von 1857“, und es gibt nicht indizierte Websites im Deep Web mit vielen Informationen über die Revolte. Es wurde einfach nicht angezeigt, egal ob Sie Google, Bing oder Duckduckgo verwenden.
Das Deep Web an sich ist ein riesiger Informationsspeicher, meist nicht von automatisierten Suchmaschinen indexiert, aber leicht zugänglich für diejenigen, die darauf zugreifen können oder die Tools kennen, die Ihnen helfen, darauf zuzugreifen.
Am anderen Ende des Spektrums befindet sich das Surface Web oder Static Web, eine Sammlung von Websites, die von automatisierten Suchmaschinen indexiert werden. Unabhängig davon, ob Sie einen Suchbot oder einen Webcrawler verwenden, folgt er URLs, indiziert den Inhalt und leitet die Ergebnisse dann zur Konsolidierung und Benutzerabfrage zurück an das zentrale Repository der Suchmaschine.
Im Idealfall sollte der Prozess das gesamte Web durchlaufen, unterliegt aber tatsächlich Zeit- und Speicherbeschränkungen des Anbieters. Der Schmerzpunkt, sei es beim Suchen oder Crawlen, liegt in der Indexierung. Ein Bot, den Sie erstellen, kann nichts melden, was nicht indexierbar ist. Aus diesem Grund decken große Suchmaschinen nur 20 % der möglichen Funde ab.
Was macht es „TIEF“?
Sie werden Schwierigkeiten haben, diese Kategorien von Websites zu kratzen.
- Proprietäre Websites
- Websites, die eine Registrierung erfordern
- Websites mit ausgeführten Skripts
- Dynamische Websites
- Ephemere Orte
- Websites, die von lokalen Webmastern blockiert werden
- Websites, die durch Suchmaschinenrichtlinien blockiert werden
- Websites mit bestimmten Sonderformaten
- Durchsuchbare Datenbanken
Proprietäre Websites erfordern im Allgemeinen eine Gebühr, wenn Sie sie crawlen möchten. Registrierungsseiten erfordern eine Login-ID und ein Passwort. Ein Bot kann Skriptcode indizieren, aber er kann nicht immer darstellen, was das Skript tatsächlich tut. Die Daten dynamischer Websites werden auf Anfrage erstellt und haben vor der Abfrage keine Existenz und danach eine begrenzte Existenz. Wenn Sie jemals einen interessanten Link in einer Social-Media-Site oder auf einer Nachrichten-Site bemerkt haben, aber später feststellten, dass der Link nicht zugänglich war, dann sind Sie auf eine flüchtige Website gestoßen. Die meisten Formate, die zuvor nicht indiziert werden konnten, wie z. B. PDFs, können jetzt einfach indiziert werden.
Die wertvollste aller Deep-Learning-Ressourcen sind jedoch durchsuchbare Datenbanken. Es gibt eine Vielzahl von sicheren Datenbanken mit Informationen im Wert von Milliarden. Aber sie sind alle meistens nicht kratzbar. Sie dienen als Back-End-zu-Front-End-Suchleisten auf verschiedenen Websites – Websites, mit denen Sie einen Teil der Daten auf einmal anzeigen können, aber niemals die Gesamtheit.

Wie crawlt man also das Deep Web?
Es gibt wissenschaftsspezifische Suchmaschinen wie Factbites, die Informationen aus Wörterbüchern, Enzyklopädien, Universitäten und vielen anderen gemeinnützigen .org-Sites enthalten. Das Deep Web ist für diejenigen leicht zugänglich, die wissen, wie man durch seine Labyrinthe navigiert. Viele Einzelpersonen und Institutionen haben geholfen, unsichtbare Webverzeichnisse zusammenzustellen, die als Startpunkt für Ihre Web-Scraping-Suche verwendet werden können. Einige Beispiele-
- Der OAIster der University of Michigan (ausgesprochen als „Oyster“) und ermutigt die Leute, angeblich „die Perlen zu finden“ im Deep Web. Sie verfügen über Millionen von Datensätzen von Institutionen, die von African Journals Online bis zum Library Network of Western Switzerland reichen. Sie können also die Vielfalt erahnen.
- Mit https://www.findarticles.com/ von LookSmart können Sie gedruckte Publikationen nach Artikeln durchsuchen, seien es populäre Zeitschriften oder wissenschaftliche Zeitschriften.
- The Library Spot ist eine weitere Sammlung von Datenbanken, Online-Bibliotheken, Referenzen und anderen guten Informationen, die aus dem Deep Web gesammelt wurden. Sie haben auch einen Abschnitt „Sie haben darum gebeten“, in dem sie die Fragen beliebter Leser beantworten.
- Die UCLA-Online-Bibliothek verfügt über einen riesigen Bestand, einschließlich ihrer speziellen Sammlungen, die nur im Deep Web zu finden sind.
- Ein interessanter Fund ist www.infoplease.com und seine durchsuchbaren Deep-Web-Datenbanken. Es zeigt Ergebnisse aus Enzyklopädien, Wörterbüchern, Almanachen und Ressourcen an, die nur aus dem Deep Web extrahiert wurden.
- Die Central Intelligence Agency (ja, die CIA, die Sie aus den vielen Hollywood-Filmen kennen müssen, die Sie vielleicht gesehen haben.) Hat das World Factbook, ein durchsuchbares Verzeichnis von Flaggen der Welt, sowie Referenzkarten und Länderprofile und so viel mehr. Es ist eine großartige Ressource, wenn Sie an geografischen Inhalten arbeiten.
- Die University of Idaho hat ein Repository of Primary Sources, das unzählige Links zu Manuskripten zusammen mit Archiven sowie seltenen Büchern und mehr enthält. Es enthält Informationen, die sich nicht nur auf die USA beziehen, sondern auch auf andere Länder und andere Orte.
- Falls Sie Pflanzen mit bestimmten Eigenschaften finden möchten und sich für die Landwirtschaft interessieren, können Sie in der Pflanzendatenbank des USDA im Deep Web wahrscheinlich etwas finden, das Ihre Aufmerksamkeit auf sich ziehen wird.
- Die Human Genome Database enthält eine Menge Informationen – fast alles, was Menschen über das menschliche Genom entdeckt haben.
- Für medizinische Fragen - Die Combined Health Information Database ist ein benutzerfreundliches Themenverzeichnis, das Antworten auf nahezu alle Gesundheitsfragen gibt.
Fazit
Dieser Artikel könnte enden, aber weißt du was? Das Deep Web ist eine unendliche Informationsquelle, die Ihnen bei Ihren geschäftlichen Aktivitäten und sogar bei Ihrer persönlichen Bereicherung helfen kann. Aber falls Sie die dort gefundenen Daten wirklich nutzen und die Informationen in einem strukturierten Format extrahieren möchten, damit Sie sie gemäß Ihren Anforderungen verwenden und Ihr Geschäft ausbauen können, sollten Sie die Hilfe eines Anbieters in Anspruch nehmen, der bereits gearbeitet hat in diesem Bereich und hilft anderen erfolgreichen Unternehmen.
