Minería profunda en la web: qué implica y por qué es necesaria

Publicado: 2018-06-16

Mostrar tabla de contenido

¿Qué lo hace “PROFUNDO”?

Entonces, ¿cómo se rastrea la web profunda?

Conclusión

Por lo tanto, está escribiendo un artículo sobre un tema "no tan común" y no puede encontrar mucha información al respecto, porque era un asunto secreto y el gobierno lo silenció. Eso no significa que te hayas topado con una pared de ladrillos. Tal vez solo estás buscando en el lugar equivocado.

Según estudios recientes, solo alrededor del cuatro por ciento de Internet ha sido indexado, lo que significa que el noventa y seis por ciento no lo está, y sería muy difícil encontrar algo que no haya sido indexado. Simplemente no aparecería en los motores de búsqueda. Digamos que está buscando la "Revuelta de 1857", y hay sitios web no indexados en la web profunda que tienen mucha información sobre la revuelta. Simplemente no aparecería, no importa si usas google o bing o duckduckgo.

La web profunda es en sí misma un depósito masivo de información, en su mayoría no indexada por motores de búsqueda automatizados, pero fácilmente disponible para aquellos que pueden acceder o conocer las herramientas que lo ayudarán a alcanzarlo.

En el otro extremo del espectro está Surface Web o Static Web, que es una colección de sitios web indexados por motores de búsqueda automatizados. Ya sea que utilice un robot de búsqueda o un rastreador web, seguirá las URL, indexará el contenido y luego transmitirá los resultados al repositorio central del motor de búsqueda para la consolidación y la consulta del usuario.

Idealmente, se supone que el proceso atraviesa toda la Web pero, de hecho, está sujeto a las limitaciones de tiempo y almacenamiento del proveedor. El punto de dolor, ya sea buscando o rastreando, radica en la indexación. Un bot que crea no puede informar algo que no es indexable. Esta es la razón por la cual los principales motores de búsqueda solo cubren el 20% de los posibles hallazgos.

¿Qué lo hace “PROFUNDO”?

Tendrá dificultades para raspar estas categorías de sitios.

Sitios propietarios
Sitios que necesitan registro
Sitios con scripts ejecutándose
Sitios dinámicos
Sitios efímeros
Sitios que están bloqueados por webmasters locales
Sitios que están bloqueados por la política del motor de búsqueda
Sitios con formatos especiales específicos
Bases de datos consultables

Los sitios propietarios generalmente requieren una tarifa, si desea rastrearlos. En cuanto a los sitios de registro, requieren una identificación de inicio de sesión y una contraseña. Un bot puede indexar el código de la secuencia de comandos, pero no siempre puede representar lo que realmente hace la secuencia de comandos. Los datos de los sitios web dinámicos se crean bajo demanda y no existen antes de la consulta y tienen una existencia limitada después. Si alguna vez notó un enlace interesante en un sitio de redes sociales o en un sitio de noticias, pero luego descubrió que el enlace era inaccesible, entonces se encontró con un sitio web efímero. La mayoría de los formatos, que antes no eran indexables, como los pdf, ahora se indexan fácilmente.

Sin embargo, el recurso de aprendizaje profundo más valioso de todos son las bases de datos de búsqueda. Hay una gran cantidad de bases de datos seguras con información que vale miles de millones. Pero todos ellos son en su mayoría un-scrapable. Sirven como barras de búsqueda de back-end a front-end en varios sitios: sitios que le permitirán ver una parte de los datos de una sola vez, pero nunca la totalidad.

Entonces, ¿cómo se rastrea la web profunda?

Hay motores de búsqueda específicos de la academia como Factbites, que tienen información procedente de diccionarios, enciclopedias, universidades y muchos otros sitios .org sin fines de lucro. La Deep Web es fácilmente accesible para aquellos que saben cómo navegar por sus laberintos. Muchas personas e instituciones han ayudado a crear directorios web invisibles que se pueden usar como un punto para iniciar su búsqueda de web scraping. Algunos ejemplos-

El OAIster de la Universidad de Michigan, (pronunciado como “ostra”) y anima a la gente a hacer supuestamente “encontrar las perlas” en la Deep Web. Tienen millones de registros de instituciones que van desde African Journals Online hasta la Red de Bibliotecas de Suiza Occidental. Entonces, puedes adivinar la diversidad.
https://www.findarticles.com/ de LookSmart le permite buscar artículos en publicaciones impresas, ya sean revistas populares o publicaciones académicas.
Library Spot es otra colección de bases de datos, bibliotecas en línea, referencias y otra buena información recopilada de Deep Web. También tienen una sección destacada "Tú lo pediste", donde responden las preguntas de los lectores más populares.
La biblioteca en línea de UCLA tiene una gran propiedad, incluidas sus colecciones especiales que solo se encuentran en la web profunda.
Un hallazgo interesante es www.infoplease.com y sus bases de datos de búsqueda en la Deep Web. Muestra resultados provenientes de enciclopedias, diccionarios, almanaques y recursos, extraídos únicamente de la Deep Web.
La Agencia Central de Inteligencia (Sí, la CIA, que debe reconocer de las muchas películas de Hollywood que podría haber visto). Tiene el World Factbook, que es un directorio de búsqueda de banderas del mundo, así como mapas de referencia, perfiles de países y mucho más. Es un gran recurso si está trabajando en contenido geográfico.
La Universidad de Idaho tiene un Depósito de fuentes primarias, que contiene innumerables enlaces a manuscritos junto con archivos, así como libros raros y más. Contiene información no solo relacionada con los EE. UU., sino también con otros países y otros lugares.
En caso de que desee encontrar plantas con ciertas características y le interese la agricultura, probablemente pueda encontrar algo que le llame la atención en la base de datos de plantas del USDA en la Deep Web.
La base de datos del genoma humano tiene una tonelada de información, casi todo lo descubierto por los humanos sobre el genoma humano.
Para preguntas médicas: la base de datos de información de salud combinada es un directorio de temas que es fácil de usar y proporciona respuestas a casi cualquier pregunta de atención médica.

Conclusión

Este artículo podría terminar, pero ¿sabes qué? La web profunda es una fuente inagotable de información que puede ayudarte en tus actividades comerciales e incluso en tu enriquecimiento personal. Pero en caso de que realmente desee aprovechar los datos que se encuentran allí y extraer la información en un formato estructurado, de modo que pueda usarla según sus necesidades y hacer crecer su negocio, debe buscar la ayuda de un proveedor que ha estado trabajando. en este campo y ayudar a otras empresas exitosas.