Deep Web Mining: cosa comporta e perché è necessario

Pubblicato: 2018-06-16
Mostra il sommario
Cosa lo rende “PROFONDO”?
Quindi, come si esegue la scansione del deep web?
Conclusione

Quindi, stai scrivendo un articolo su un argomento "non così comune" e non puoi trovare molte informazioni al riguardo, perché era un affare segreto ed è stato messo a tacere dal governo. Ciò non significa che hai colpito un muro di mattoni. Forse stai solo cercando nel posto sbagliato.

Secondo studi recenti, solo il quattro percento circa di Internet è stato indicizzato, il che significa che il novantasei percento non lo è, e sarebbe molto difficile trovare qualcosa che non sia stato indicizzato. Semplicemente non verrebbe visualizzato nei motori di ricerca. Supponiamo che tu stia cercando la "Rivolta del 1857" e che ci sono siti Web non indicizzati nel deep web che contengono un sacco di informazioni sulla rivolta. Semplicemente non verrebbe visualizzato, non importa se usi google o bing o duckduckgo.

Il deep web è di per sé un enorme repository di informazioni, per lo più non indicizzato dai motori di ricerca automatizzati, ma prontamente disponibile per coloro che possono raggiungerlo o conoscere gli strumenti che ti aiuteranno a raggiungerlo.

All'altra estremità dello spettro c'è Surface Web o Static Web, che è una raccolta di siti Web indicizzati da motori di ricerca automatizzati. Che si tratti di un bot di ricerca o di un crawler web che utilizzi, seguirà gli URL, indicizzerà il contenuto e quindi trasmetterà i risultati al repository centrale del motore di ricerca per il consolidamento e la query dell'utente.

Idealmente, il processo dovrebbe attraversare l'intero Web, ma in realtà è soggetto a vincoli di tempo e archiviazione del fornitore. Il punto dolente, che sia la ricerca o la scansione, risiede nell'indicizzazione. Un bot che crei non può segnalare qualcosa che non è indicizzabile. Ecco perché i principali motori di ricerca coprono solo il 20% dei possibili reperti.

Cosa lo rende “PROFONDO”?

Avrai difficoltà a raschiare queste categorie di siti-

  • Siti proprietari
  • Siti che necessitano di registrazione
  • Siti con script in esecuzione
  • Siti dinamici
  • Siti effimeri
  • Siti bloccati dai webmaster locali
  • Siti bloccati dalla politica dei motori di ricerca
  • Siti con formati speciali specifici
  • Database ricercabili

I siti proprietari generalmente richiedono una tariffa, se si desidera eseguirne la scansione. Per quanto riguarda i siti di registrazione, richiedono un login-id e una password. Un bot può indicizzare il codice dello script, ma non può sempre rappresentare ciò che effettivamente fa lo script. I dati dei siti web dinamici vengono creati su richiesta e non hanno esistenza prima della query ed esistenza limitata in seguito. Se hai mai notato un collegamento interessante in un sito di social media o su un sito di notizie ma hai scoperto che il collegamento era inaccessibile in seguito, allora ti sei imbattuto in un sito Web effimero. La maggior parte dei formati, prima non indicizzabili come i pdf, ora sono facilmente indicizzati.

Tuttavia, la risorsa di deep learning più preziosa di tutte sono i database ricercabili. Esiste un numero enorme di database sicuri con informazioni che valgono miliardi. Ma sono tutti per lo più non demolibili. Servono come barre di ricerca dal back-end al front-end in vari siti: siti che ti permetteranno di visualizzare una parte dei dati in una volta sola, ma mai l'intero.

Quindi, come si esegue la scansione del deep web?

Esistono motori di ricerca specifici per il mondo accademico come Factbites, che hanno informazioni provenienti da dizionari, enciclopedie, università e molti altri siti .org senza scopo di lucro. Il Deep Web è facilmente accessibile a chi sa come navigare nei suoi labirinti. Molte persone e istituzioni hanno contribuito a mettere insieme directory Web invisibili che possono essere utilizzate come punto di partenza per la ricerca di scraping web. Qualche esempio-

  • L'OAIster dell'Università del Michigan (pronunciato come "ostrica") e incoraggia le persone a "trovare le perle" nel Deep Web. Hanno milioni di documenti provenienti da istituzioni che vanno da African Journals Online alla rete di biblioteche della Svizzera occidentale. Quindi, puoi indovinare la diversità.
  • https://www.findarticles.com/ di LookSmart ti consente di cercare articoli tra le pubblicazioni cartacee, che si tratti di riviste popolari o di riviste accademiche.
  • The Library Spot è un'altra raccolta di database, librerie online, riferimenti e altre buone informazioni raccolte dal Deep Web. Hanno anche una sezione in primo piano "L'hai chiesto", dove rispondono alle domande dei lettori più popolari.
  • La biblioteca online dell'UCLA ha un vasto patrimonio, comprese le loro collezioni speciali che si trovano solo nel deep web.
  • Una scoperta interessante è www.infoplease.com e i suoi database Deep Web ricercabili. Visualizza i risultati provenienti da enciclopedie, dizionari, almanacchi e risorse, estratti solo dal Deep Web.
  • La Central Intelligence Agency (Sì, la CIA, che devi riconoscere dai molti film di Hollywood che potresti aver visto.) Ha il World Factbook, che è una directory ricercabile di bandiere del mondo, oltre a mappe di riferimento, profili di paesi e molto di più. È un'ottima risorsa se stai lavorando su contenuti geografici.
  • L'Università dell'Idaho ha un Repository of Primary Sources, che contiene innumerevoli collegamenti a manoscritti insieme ad archivi, libri rari e altro ancora. Contiene informazioni non solo relative agli Stati Uniti, ma anche ad altri paesi e altri luoghi.
  • Nel caso in cui desideri trovare piante con determinate caratteristiche e ti piace l'agricoltura, probabilmente puoi trovare qualcosa che attirerà la tua attenzione nel database delle piante dell'USDA nel Deep Web.
  • Il database del genoma umano contiene un sacco di informazioni, quasi tutto quello scoperto dagli esseri umani sul genoma umano.
  • Per domande mediche: il database combinato di informazioni sanitarie è una directory di argomenti di facile utilizzo e fornisce risposte a quasi tutte le domande sull'assistenza sanitaria.

Conclusione

Questo articolo potrebbe finire, ma sai una cosa? Il deep web è una fonte inesauribile di informazioni, che potrebbe aiutarti nelle tue attività commerciali e persino nell'arricchimento personale. Ma nel caso in cui desideri davvero sfruttare i dati che si trovano lì ed estrarre le informazioni in un formato strutturato, in modo tale da poterle utilizzare secondo le tue esigenze e far crescere la tua attività, dovresti avvalerti dell'aiuto di un fornitore che ha lavorato in questo campo e aiutare altre aziende di successo.