Deep Web Mining – co pociąga za sobą i dlaczego jest potrzebne
Opublikowany: 2018-06-16Piszesz więc artykuł na „niezbyt powszechny” temat i nie możesz znaleźć na ten temat zbyt wielu informacji, ponieważ była to tajna sprawa i została uciszona przez rząd. To nie znaczy, że uderzyłeś w ceglaną ścianę. Może po prostu szukasz w niewłaściwym miejscu.
Jak wynika z ostatnich badań, tylko około czterech procent internetu zostało zindeksowanych, co oznacza, że dziewięćdziesiąt sześć procent nie zostało zindeksowanych i bardzo trudno byłoby znaleźć coś, co nie zostało zindeksowane. Po prostu nie pojawiłby się w wyszukiwarkach. Załóżmy, że szukasz „Rewolty 1857”, a w głębokiej sieci znajdują się niezindeksowane strony internetowe zawierające mnóstwo informacji o buncie. Po prostu się nie pojawi, bez względu na to, czy używasz google, bing czy duckduckgo.
Głęboka sieć jest sama w sobie ogromnym repozytorium informacji, w większości nieindeksowanych przez automatyczne wyszukiwarki, ale łatwo dostępnych dla tych, którzy mogą się do niej dostać lub znają narzędzia, które pomogą Ci do niej dotrzeć.
Na drugim końcu spektrum znajduje się Surface Web lub Static Web, czyli zbiór stron internetowych indeksowanych przez automatyczne wyszukiwarki. Niezależnie od tego, czy używasz robota wyszukującego, czy robota indeksującego, będzie on śledzić adresy URL, indeksować zawartość, a następnie przekazywać wyniki z powrotem do centralnego repozytorium wyszukiwarki w celu konsolidacji i zapytania użytkowników.
W idealnej sytuacji proces powinien przechodzić przez całą sieć, ale w rzeczywistości podlega ograniczeniom dotyczącym czasu i pamięci dostawcy. Problem, czy to wyszukiwanie, czy indeksowanie, leży w indeksowaniu. Bot, którego utworzysz, nie może zgłosić czegoś, czego nie można zindeksować. Dlatego duże wyszukiwarki obejmują tylko 20% możliwych znalezisk.
Co sprawia, że jest „GŁĘBOKI”?
Będziesz mieć trudności ze skrobaniem tych kategorii witryn-
- Strony zastrzeżone
- Witryny wymagające rejestracji
- Witryny z uruchomionymi skryptami
- Witryny dynamiczne
- Miejsca efemeryczne
- Witryny blokowane przez lokalnych webmasterów
- Witryny blokowane przez zasady dotyczące wyszukiwarek
- Witryny o określonych formatach specjalnych
- Przeszukiwalne bazy danych
Witryny zastrzeżone zazwyczaj wymagają opłaty, jeśli chcesz je zaindeksować. Strony rejestracyjne wymagają podania loginu i hasła. Bot może indeksować kod skryptu, ale nie zawsze może zobrazować, co faktycznie robi skrypt. Dane stron dynamicznych są tworzone na żądanie i nie istnieją przed zapytaniem, a później są ograniczone. Jeśli kiedykolwiek zauważyłeś interesujący link w serwisie społecznościowym lub na stronie z wiadomościami, ale stwierdziłeś, że później był on niedostępny, to znaczy, że trafiłeś na efemeryczny serwis. Większość formatów, których wcześniej nie można było indeksować, takich jak pliki PDF, można teraz łatwo indeksować.

Jednak najcenniejszym zasobem uczenia głębokiego ze wszystkich są bazy danych z możliwością przeszukiwania. Istnieje ogromna liczba bezpiecznych baz danych zawierających informacje warte miliardy. Ale wszystkie są w większości nie do złomowania. Służą jako back-end do front-endowych pasków wyszukiwania w różnych witrynach — Witryny, które umożliwiają przeglądanie części danych za jednym razem, ale nigdy całości.
Jak więc przeszukiwać głęboką sieć?
Istnieją wyszukiwarki specyficzne dla środowiska akademickiego, takie jak Factbites, które mają informacje pochodzące ze słowników, encyklopedii, uniwersytetów i wielu innych witryn non-profit .org. Deep Web jest łatwo dostępny dla tych, którzy wiedzą, jak poruszać się po labiryntach. Wiele osób i instytucji pomogło stworzyć niewidzialne katalogi internetowe, które można wykorzystać jako punkt do rozpoczęcia wyszukiwania w sieci. Kilka przykładów-
- OAIster Uniwersytetu Michigan (wymawiane jako „ostryga”) i zachęca ludzi do rzekomego „znalezienia pereł” w Deep Web. Mają miliony rekordów z instytucji, od afrykańskich czasopism online po sieć biblioteczną zachodniej Szwajcarii. Możesz więc odgadnąć różnorodność.
- https://www.findarticles.com/ firmy LookSmart umożliwia przeszukiwanie publikacji drukowanych w poszukiwaniu artykułów, czy to popularnych magazynów, czy czasopism naukowych.
- The Library Spot to kolejny zbiór baz danych, bibliotek internetowych, referencji i innych dobrych informacji zebranych z Deep Web. Mają też wyróżnioną sekcję „Poprosiłeś o to”, w której odpowiadają na pytania popularnych czytelników.
- Biblioteka internetowa UCLA ma ogromne zasoby, w tym ich specjalne kolekcje, które można znaleźć tylko w głębokiej sieci.
- Ciekawym odkryciem jest www.infoplease.com i jej przeszukiwalne bazy danych Deep Web. Wyświetla wyniki pochodzące z encyklopedii, słowników, almanachów i zasobów pobranych tylko z Deep Web.
- Centralna Agencja Wywiadowcza (tak, CIA, którą musisz rozpoznać z wielu hollywoodzkich filmów, które mogłeś obejrzeć). i wiele więcej. To świetne źródło, jeśli pracujesz nad treściami geograficznymi.
- Uniwersytet Idaho posiada Repozytorium Źródeł Podstawowych, które zawiera niezliczone linki do rękopisów wraz z archiwami, a także rzadkimi książkami i nie tylko. Zawiera informacje nie tylko związane ze Stanami Zjednoczonymi, ale także innymi krajami i innymi miejscami.
- Jeśli chcesz znaleźć rośliny o określonych cechach i interesujesz się rolnictwem, prawdopodobnie znajdziesz coś, co przyciągnie twoją uwagę w bazie danych USDA o roślinach w Deep Web.
- Baza danych ludzkiego genomu zawiera mnóstwo informacji – prawie wszystko, co ludzie odkryli na temat ludzkiego genomu.
- W przypadku pytań medycznych – Połączona baza danych dotyczących zdrowia to katalog tematyczny, który jest przyjazny dla użytkownika i zawiera odpowiedzi na prawie wszystkie pytania dotyczące opieki zdrowotnej.
Wniosek
Ten artykuł może się skończyć, ale wiesz co? Głęboka sieć jest niekończącym się źródłem informacji, które mogą pomóc w realizacji zadań biznesowych, a nawet osobistym wzbogaceniu. Ale jeśli naprawdę chcesz wykorzystać dane tam znalezione i wyodrębnić informacje w ustrukturyzowanym formacie, tak abyś mógł z nich korzystać zgodnie ze swoimi potrzebami i rozwijać swoją firmę, powinieneś skorzystać z pomocy dostawcy, który pracuje w tej dziedzinie i pomaganie innym odnoszącym sukcesy firmom.
