Deep Web Mining - Qu'est-ce que cela implique et pourquoi est-ce nécessaire

Publié: 2018-06-16

Table des matières afficher

Qu'est-ce qui le rend "PROFOND" ?

Alors, comment explorez-vous le Web profond ?

Conclusion

Donc, vous écrivez un article sur un sujet "pas si courant", et vous ne trouvez pas beaucoup d'informations à ce sujet, car c'était une affaire secrète et étouffée par le gouvernement. Cela ne signifie pas que vous vous êtes heurté à un mur de briques. Peut-être cherchez-vous simplement au mauvais endroit.

Selon des études récentes, environ 4 % seulement d'Internet a été indexé, ce qui signifie que 96 % ne l'est pas, et il serait très difficile de trouver quelque chose qui n'a pas été indexé. Il n'apparaîtrait tout simplement pas dans les moteurs de recherche. Supposons que vous recherchiez la «révolte de 1857» et qu'il existe des sites Web non indexés sur le Web profond contenant de nombreuses informations sur la révolte. Cela ne s'afficherait tout simplement pas, peu importe que vous utilisiez Google, Bing ou Duckduckgo.

Le Web profond est en soi un énorme référentiel d'informations, pour la plupart non indexées par les moteurs de recherche automatisés, mais facilement accessibles à ceux qui peuvent y accéder ou qui connaissent les outils qui vous aideront à y accéder.

À l'autre extrémité du spectre se trouve le Web de surface ou Web statique, qui est une collection de sites Web indexés par des moteurs de recherche automatisés. Qu'il s'agisse d'un robot de recherche ou d'un robot d'indexation Web que vous utilisez, il suivra les URL, indexera le contenu, puis retransmettra les résultats au référentiel central du moteur de recherche pour la consolidation et la requête des utilisateurs.

Idéalement, le processus est censé parcourir l'ensemble du Web, mais il est en fait soumis aux contraintes de temps et de stockage des fournisseurs. Le problème, qu'il s'agisse de rechercher ou d'explorer, réside dans l'indexation. Un bot que vous créez ne peut pas signaler quelque chose qui n'est pas indexable. C'est pourquoi les principaux moteurs de recherche ne couvrent que 20% des résultats possibles.

Qu'est-ce qui le rend "PROFOND" ?

Vous aurez du mal à scraper ces catégories de sites-

Sites propriétaires
Sites nécessitant une inscription
Sites avec des scripts en cours d'exécution
Sites dynamiques
Sites éphémères
Sites bloqués par les webmasters locaux
Sites bloqués par la politique des moteurs de recherche
Sites avec des formats spéciaux spécifiques
Bases de données consultables

Les sites propriétaires exigent généralement des frais si vous souhaitez les explorer. Quant aux sites d'inscription, ils nécessitent un login-id et un mot de passe. Un bot peut indexer le code d'un script, mais il ne peut pas toujours décrire ce que le script fait réellement. Les données des sites Web dynamiques sont créées à la demande et n'ont aucune existence avant la requête et une existence limitée par la suite. Si vous avez déjà remarqué un lien intéressant sur un site de médias sociaux ou sur un site d'actualités mais que vous avez constaté que le lien était inaccessible par la suite, vous avez rencontré un site Web éphémère. La plupart des formats, non indexables auparavant comme les pdf, sont désormais facilement indexables.

Cependant, la ressource d'apprentissage en profondeur la plus précieuse de toutes sont les bases de données consultables. Il existe un grand nombre de bases de données sécurisées contenant des informations valant des milliards. Mais ils sont tous pour la plupart non grattables. Ils servent de back-end aux barres de recherche front-end dans divers sites - des sites qui vous permettront de visualiser une partie des données en une seule fois, mais jamais la totalité.

Alors, comment explorez-vous le Web profond ?

Il existe des moteurs de recherche spécifiques aux universités, tels que Factbites, qui contiennent des informations provenant de dictionnaires, d'encyclopédies, d'universités et de nombreux autres sites .org à but non lucratif. Le Deep Web est facilement accessible à ceux qui savent naviguer dans ses labyrinthes. De nombreuses personnes et institutions ont aidé à créer des répertoires Web invisibles qui peuvent être utilisés comme point de départ pour votre recherche de grattage Web. Quelques exemples-

L'OAIster de l'Université du Michigan, (prononcé comme "huître") et il encourage les gens à soi-disant "trouver les perles" dans le Deep Web. Ils ont des millions de notices d'institutions allant des revues africaines en ligne au réseau des bibliothèques de Suisse occidentale. Ainsi, vous pouvez deviner la diversité.
https://www.findarticles.com/ de LookSmart vous permet de rechercher des articles dans des publications imprimées, qu'il s'agisse de magazines populaires ou de revues savantes.
Le Library Spot est une autre collection de bases de données, de bibliothèques en ligne, de références et d'autres bonnes informations collectées sur le Deep Web. Ils ont également une section "Vous l'avez demandé", où ils répondent aux questions des lecteurs populaires.
La bibliothèque en ligne de l'UCLA possède un vaste fonds, y compris leurs collections spéciales que l'on ne trouve que sur le Web profond.
Une découverte intéressante est le www.infoPlease.com et ses bases de données Deep Web consultables. Il affiche des résultats provenant d'encyclopédies, de dictionnaires, d'almanachs et de ressources, extraits uniquement du Deep Web.
La Central Intelligence Agency (Oui, la CIA, que vous devez reconnaître parmi les nombreux films hollywoodiens que vous avez peut-être regardés.) A le World Factbook, qui est un répertoire consultable des drapeaux du monde, ainsi que des cartes de référence, des profils de pays et bien plus. C'est une excellente ressource si vous travaillez sur du contenu géographique.
L'Université de l'Idaho possède un référentiel de sources primaires, qui contient d'innombrables liens vers des manuscrits ainsi que des archives ainsi que des livres rares et plus encore. Il contient des informations non seulement liées aux États-Unis, mais également à d'autres pays et à d'autres lieux.
Si vous souhaitez trouver des plantes présentant certaines caractéristiques et que vous êtes dans l'agriculture, vous pouvez probablement trouver quelque chose qui attirera votre attention dans la base de données des plantes de l'USDA sur le Deep Web.
La base de données du génome humain contient une tonne d'informations - presque tout ce que les humains ont découvert sur le génome humain.
Pour les questions médicales - La base de données combinée d'informations sur la santé est un répertoire de sujets convivial qui fournit des réponses à presque toutes les questions sur les soins de santé.

Conclusion

Cet article pourrait se terminer, mais vous savez quoi ? Le Web profond est une source d'informations inépuisable, qui peut vous aider dans vos activités commerciales et même dans votre enrichissement personnel. Mais si vous voulez vraiment exploiter les données qui s'y trouvent et extraire les informations dans un format structuré, de sorte que vous puissiez les utiliser selon vos besoins et développer votre entreprise, vous devriez prendre l'aide d'un fournisseur qui a travaillé dans ce domaine et d'aider d'autres entreprises prospères.