Una guida completa al nuovo motore di ricerca di Google Dataset: Promptcloud

Pubblicato: 2018-10-18
Mostra il sommario
Perché Google lo ha creato ora?
Perché il programma è ancora in versione beta?
Bene, come utilizzare la ricerca del set di dati di Google?

Quando ho scritto il mio primo algoritmo di apprendimento automatico, ho utilizzato la gigantesca raccolta di set di dati ospitata da UC Irvine per imparare le basi. C'erano così tanti set di dati con cui esercitarsi, 442 per l'esattezza. Ma il problema è che si tratta di set di dati che sono stati utilizzati da un sacco di persone in tutto il mondo e quasi tutti i risultati che potrebbero essere ottenuti da essi sono già stati pubblicati. Inoltre, la scienza dei dati è progredita in molti campi. Esistono infiniti tipi di set di dati che potresti voler studiare. In tal caso, 442 è un minuscolo, quasi una goccia nell'oceano, così come la ricerca di set di dati di Google esiste.

Ma poi, ogni volta che abbiamo bisogno di cercare qualcosa, lo “cerchiamo su Google”, giusto? Quindi, se avessi bisogno di un set di dati con i dettagli dei malati di cancro in una regione, per scoprire se vivere in un'area urbana aumenta le possibilità di sviluppare la malattia mortale, molto probabilmente finirei per "cercare su Google". Tuttavia, quello che devi capire è che Google funziona sulla base della corrispondenza delle parole. È più probabile che recuperi i tuoi articoli con le parole "Set di dati di pazienti oncologici" quando lo cerchi piuttosto che fornirti set di dati reali. E questo è il motivo per cui Google ha lanciato la beta di ricerca del set di dati di Google il 5 settembre di quest'anno.

Quindi ora puoi cercare parole chiave e trovare set di dati ad esse associati. Ma con cosa devi cercare? Conosciamo tutti alcuni trucchi e suggerimenti che funzionano durante la ricerca su Google. Si applicano queste regole durante la ricerca di un determinato Google? Sì, in effetti, secondo Google, troverai molto più facile raccogliere i set di dati dal motore di ricerca di Google, nel caso in cui fornissi informazioni come il nome del set di dati, la descrizione, le informazioni sul creatore e il formato (CSV, JSON, ecc. ). Anche i set di dati nei linguaggi di markup possono essere scoperti con l'aiuto del nuovissimo motore di ricerca.

Per le persone che desiderano che Google individui i set di dati nei propri siti Web e li mostri agli utenti, Google afferma che, sebbene la funzione sia in fase pilota, le cose stanno prendendo il passo e puoi iniziare ad aggiungere set di dati aggiungendo dati strutturati al tuo sito Web e lo faranno alla fine vengono visualizzati nel motore di ricerca quando le persone effettuano ricerche con termini pertinenti.

Perché Google lo ha creato ora?

Bene, ci sono migliaia di repository contenenti dati sul Web e a loro volta forniscono accesso a milioni di set di dati. Questi set di dati possono appartenere a governi nazionali, internazionali o regionali, organizzazioni senza scopo di lucro o anche aziende che desiderano coinvolgere il pubblico nella gestione dei loro set di dati. Un'enorme quantità di set di dati è detenuta pubblicamente da organizzazioni di ricerca e istituti di istruzione superiore. L'accesso a tutti questi set di dati è fondamentale, in modo da facilitare il facile flusso di informazioni. Un set di dati intrappolato sotto un costo di mille dollari potrebbe anche essere fuori dalla portata di molti ricercatori che avrebbero potuto dare un senso ai dati.

Ma il problema sta nel volume. Con così tanti dati su Internet, può rivelarsi molto difficile trovare un determinato set di dati, anche se puoi restringerlo a una categoria, sottocategoria, regione e altro. Puoi specificare se stai cercando dati su malattie, film, piante, animali, calamità, avvistamenti UFO e altro. E in teoria, dovresti riuscire a trovarli facilmente. Ma al momento non è così.

Google sta risolvendo il problema consentendo alle persone di allegare alcuni metadati in un formato particolare che sarà regolato da alcuni standard, in modo da aiutare Google a tracciare i set di dati più facilmente. Questi metadati aiuterebbero Google a rendere i set di dati facilmente accessibili al pubblico.

Perché il programma è ancora in versione beta?

Sebbene la maggior parte dei problemi tecnici sia stata affrontata, le sfide principali sono alcune domande che rimangono senza risposta. Alcune di queste domande sono: qual è la definizione universale di un set di dati? Una singola tabella può essere chiamata set di dati? Che ne dici di una collezione di tavoli? Una cartella di immagini? Come si dice che le immagini nella cartella sono correlate? Oppure le tabelle trovate insieme sono correlate? Che dire di un'API che fornisce un set di dati? È possibile mettere in relazione set di dati simili utilizzando determinati parametri?

Il problema è che i set di dati sono stati costruiti da molto tempo e sono archiviati in molti formati diversi e non c'è modo di trovare dati o metadati primari o tag con cui possano essere immediatamente identificati dalle profondità di Internet e questo è ciò su cui Google sta cercando di lavorare. Quindi quello che stanno raccomandando è che le persone che stanno caricando dati, seguano convenzioni appropriate e coloro che utilizzano i dati, nella ricerca, forniscano citazioni appropriate. Dopotutto, Google è solo un motore di ricerca. Ci mostra dati preesistenti. Non riesce a trovare qualcosa che non sia in uno stato per essere trovato. A meno che le persone non inizino a gestire i dati in modo responsabile, archiviandoli nei formati consigliati e aggiungendo metadati e citazioni, le cose peggioreranno man mano che sempre più set di dati vengono aggiunti al Web, ogni singolo giorno.

Bene, come utilizzare la ricerca del set di dati di Google?

È possibile cercare vari tipi di set di dati. E secondo Google, un set di dati può essere uno dei seguenti:

  • Una raccolta di tabelle interconnesse raggruppate insieme
  • Dati in formato CSV o Tabella
  • Un insieme di immagini o video
  • Qualsiasi file formattato proprietario che contiene dati
  • Raccolta di file che insieme costituiscono un set di dati di qualche forma
  • Un oggetto come un JSON, che può essere elaborato per creare un set di dati.
  • Modelli binari come quelli prodotti da Tensorflow
  • Qualsiasi cosa che ad occhi nudi assomigli anche a un set di dati.

Ecco come appare il motore di ricerca e puoi continuare e cercare qualcosa proprio come faresti normalmente con la ricerca web di Google:

google-dataset-search-engine-image1 Quindi, quando ho cercato un set di dati sulle abitazioni, ho riscontrato questo risultato:

google-dataset-search-engine-image2

Puoi vedere che Google sta cercando di mostrare i set di dati più rilevanti e popolari relativi alle sole due parole che ho inserito e, in questo scenario, Kaggle ha molti set di dati sulle abitazioni che sono stati utilizzati da migliaia di utenti, e quindi questi arrivano al superiore.

Successivamente, ho cercato qualcosa di un po' più specifico. E ha ottenuto il seguente risultato:

google-dataset-search-engine-image3

Questa volta, puoi vedere che poiché ho cercato qualcosa di specifico, Google è stato in grado di individuarmi la risorsa, aiutandomi così a scalare più velocemente il mio lavoro. Google fornisce anche alcune descrizioni e collegamenti di base per farmi capire di più sul set di dati con cui voglio lavorare.

Un tale servizio è una manna dal cielo e vorrei che fosse disponibile quando ho iniziato a studiare la scienza dei dati. Ti consiglierei di continuare a cercare i set di dati, su Google, e provare a fornire quante più informazioni sul set di dati che stai cercando di cercare, in modo da trovare il set di dati più adatto per il tuo progetto, studio o ricerca. Nel frattempo, se i dati di cui hai bisogno non sono già disponibili sul Web in un formato pronto per l'uso, puoi sempre contattarci per impostare una scansione personalizzata.

Alla ricerca di un servizio di web scraping per estrarre i dati per te contatta PromptCloud