Глубокий веб-майнинг — что это такое и зачем он нужен
Опубликовано: 2018-06-16Итак, вы пишете статью на «не очень распространенную» тему, и не можете найти по ней много информации, потому что это было секретным делом и замалчивалось правительством. Это не означает, что вы ударились о кирпичную стену. Возможно, вы просто ищете не в том месте.
Согласно недавним исследованиям, только около четырех процентов Интернета было проиндексировано, а это означает, что девяносто шесть процентов не проиндексированы, и было бы очень трудно найти что-то, что не было бы проиндексировано. Он просто не будет отображаться в поисковых системах. Допустим, вы ищете «Восстание 1857 года», и в глубокой сети есть неиндексированные веб-сайты, содержащие массу информации о восстании. Он просто не появится, независимо от того, используете ли вы Google, Bing или Duckduckgo.
Глубокая сеть сама по себе является огромным хранилищем информации, в основном не индексируемой автоматическими поисковыми системами, но легко доступной для тех, кто может получить доступ или знает инструменты, которые помогут вам получить к ней доступ.
На другом конце спектра находится Surface Web или Static Web, представляющий собой набор веб-сайтов, индексируемых автоматизированными поисковыми системами. Независимо от того, используете ли вы поисковый бот или поисковый робот, он будет следовать URL-адресам, индексировать контент, а затем передавать результаты обратно в центральный репозиторий поисковой системы для консолидации и пользовательского запроса.
В идеале процесс должен проходить через всю сеть, но на самом деле он зависит от ограничений поставщика по времени и объему памяти. Основная проблема, будь то поиск или сканирование, заключается в индексации. Созданный вами бот не может сообщить о том, что не подлежит индексации. Вот почему основные поисковые системы охватывают только 20% возможных результатов.
Что делает его «глубоким»?
У вас возникнут трудности со скрейпингом этих категорий сайтов.
- Собственные сайты
- Сайты, требующие регистрации
- Сайты с работающими скриптами
- Динамические сайты
- Эфемерные сайты
- Сайты, заблокированные местными веб-мастерами
- Сайты, заблокированные политикой поисковой системы
- Сайты с определенными специальными форматами
- Базы данных с возможностью поиска
Проприетарные сайты обычно требуют плату, если вы хотите их сканировать. Что касается сайтов регистрации, то они требуют логин-идентификатор и пароль. Бот может индексировать код скрипта, но не всегда может показать, что на самом деле делает скрипт. Данные динамических веб-сайтов создаются по запросу и не существуют до запроса и ограничены после него. Если вы когда-нибудь замечали интересную ссылку в социальной сети или на новостном сайте, но позже обнаруживали, что ссылка недоступна, значит, вы столкнулись с эфемерным веб-сайтом. Большинство форматов, которые раньше не индексировались, такие как pdf, теперь легко индексируются.
Однако наиболее ценным ресурсом глубокого обучения являются базы данных с возможностью поиска. Существует огромное количество защищенных баз данных с информацией на миллиарды. Но все они в основном неразборные. Они служат внутренними и внешними панелями поиска на различных сайтах — сайтах, которые позволяют вам просматривать часть данных за один раз, но никогда не все целиком.

Так как же сканировать глубокую сеть?
Существуют специализированные поисковые системы, такие как Factbites, которые получают информацию из словарей, энциклопедий, университетов и многих других некоммерческих сайтов .org. Глубокая паутина легкодоступна для тех, кто умеет ориентироваться в ее лабиринтах. Многие люди и организации помогли создать невидимые веб-каталоги, которые можно использовать в качестве отправной точки для поиска в Интернете. Некоторые примеры-
- OAIster Мичиганского университета (произносится как «устрица») и поощряет людей якобы «находить жемчужины» в Deep Web. У них есть миллионы записей из учреждений, начиная от африканских журналов в Интернете и заканчивая библиотечной сетью Западной Швейцарии. Итак, вы можете догадаться о разнообразии.
- Сайт LookSmart https://www.findarticles.com/ позволяет искать статьи в печатных изданиях, будь то популярные журналы или научные журналы.
- Library Spot — это еще одна коллекция баз данных, онлайн-библиотек, ссылок и другой полезной информации, собранной из Deep Web. У них также есть специальный раздел «Вы просили об этом», где они отвечают на популярные вопросы читателей.
- Онлайн-библиотека Калифорнийского университета в Лос-Анджелесе имеет обширный фонд, в том числе их специальные коллекции, которые можно найти только в глубокой сети.
- Интересной находкой является сайт www.infoplease.com и его базы данных Deep Web с возможностью поиска. Он отображает результаты из энциклопедий, словарей, альманахов и ресурсов, извлеченных только из Deep Web.
- Центральное разведывательное управление (да, ЦРУ, которое вы должны знать по многим голливудским фильмам, которые вы, возможно, смотрели). Есть Всемирная книга фактов, которая представляет собой доступный для поиска каталог флагов мира, а также справочные карты, профили стран. и многое другое. Это отличный ресурс, если вы работаете над географическим контентом.
- В Университете Айдахо есть Репозиторий первоисточников, который содержит бесчисленные ссылки на рукописи, а также архивы, редкие книги и многое другое. Он содержит информацию, касающуюся не только США, но и других стран и других мест.
- Если вы хотите найти растения с определенными характеристиками и занимаетесь сельским хозяйством, вы, вероятно, можете найти что-то, что привлечет ваше внимание, в базе данных растений Министерства сельского хозяйства США в Deep Web.
- База данных генома человека содержит массу информации — почти все, что было обнаружено людьми о геноме человека.
- По медицинским вопросам. Комбинированная база данных медицинской информации представляет собой предметный каталог, который удобен для пользователя и дает ответы практически на любые медицинские вопросы.
Вывод
Эта статья может закончиться, но знаете что? Глубокая сеть — это бесконечный источник информации, которая может помочь вам в ваших деловых занятиях и даже в личном обогащении. Но если вы действительно хотите использовать найденные там данные и извлекать информацию в структурированном формате, чтобы вы могли использовать ее в соответствии со своими потребностями и развивать свой бизнес, вам следует воспользоваться помощью поставщика, который работает в этой области и помогает другим успешным предприятиям.
