Un ghid complet pentru noul motor de căutare Google Dataset – Promptcloud

Publicat: 2018-10-18
Cuprins arată
De ce a construit Google asta acum?
De ce programul este încă în versiune beta?
Ei bine, cum să folosești căutarea în setul de date Google?

Când am scris primul meu algoritm de învățare automată, am folosit colecția de seturi de date mamut găzduită de UC Irvine pentru a învăța frânghiile. Au fost atât de multe seturi de date cu care să exersați, 442 mai exact. Dar problema este că acestea sunt seturi de date care au fost folosite de o mulțime de oameni din întreaga lume și aproape toate constatările care ar putea fi obținute de la ei au fost deja publicate. De asemenea, știința datelor a progresat în multe domenii. Există infinite tipuri de seturi de date pe care ați putea dori să le studiați. În acest caz, 442 este o minusculă, aproape o picătură în ocean și la fel există căutarea în setul de date Google.

Dar atunci, ori de câte ori trebuie să căutăm ceva, îl „Google”, nu? Așadar, dacă aș avea nevoie de un set de date cu detalii despre pacienții cu cancer dintr-o regiune, pentru a afla dacă locuirea într-o zonă urbană crește șansele de a dezvolta boala mortală, cel mai probabil aș ajunge să-l „găsesc” pe Google. Totuși, ceea ce trebuie să înțelegeți este că Google funcționează pe baza potrivirii cuvintelor. Este mai probabil să vă aduceți articolele cu cuvintele „Setul de date ale pacienților cu cancer” atunci când îl căutați decât să vă oferiți seturi de date reale. Și acesta este motivul pentru care Google a lansat versiunea beta de căutare a seturilor de date Google pe 5 septembrie, anul acesta.

Deci, acum, puteți căuta cuvinte cheie și puteți găsi seturi de date asociate acestora. Dar cu ce trebuie să cauți? Cu toții știm anumite trucuri și sfaturi care funcționează atunci când căutăm pe Google. Se aplică astfel de reguli atunci când căutați un anume google? Da, într-adevăr, conform Google, veți găsi mult mai ușor să colectați seturi de date din Motorul de căutare Google, în cazul în care furnizați informații precum numele setului de date, descrierea, informațiile despre creator și formatul (CSV, JSON etc. ). Chiar și seturile de date în limbaje de marcare pot fi descoperite cu ajutorul noului motor de căutare.

Pentru persoanele care doresc ca Google să găsească seturi de date pe site-urile lor web și să le arate utilizatorilor, Google spune că, deși funcția este în programul pilot, lucrurile merg în ritm și puteți începe să adăugați seturi de date adăugând date structurate pe site-ul dvs. web și ei vor în cele din urmă apar în motorul de căutare atunci când oamenii caută cu termeni relevanți.

De ce a construit Google asta acum?

Ei bine, există mii de depozite care conțin date pe web și, la rândul lor, oferă acces la milioane de seturi de date. Aceste seturi de date pot aparține guvernelor naționale, internaționale sau regionale, organizațiilor non-profit sau chiar companiilor care doresc să implice publicul în gestionarea setului lor de date. O cantitate imensă de seturi de date este deținută public de organizațiile de cercetare și colegiile de învățământ superior. Accesul la toate aceste seturi de date este critic, pentru a facilita fluxul ușor de informații. Un set de date blocat sub taxe de o mie de dolari ar putea la fel de bine să nu fie la îndemâna multor cercetători care ar fi putut avea un sens din date.

Dar problema constă în volum. Cu atât de multe date pe internet, se poate dovedi a fi foarte dificil să găsești un anumit set de date, chiar dacă îl poți restrânge la o categorie, subcategorie, regiune și multe altele. Puteți specifica dacă căutați date despre boli, filme, plante, animale, calamități, observare OZN și multe altele. Și teoretic vorbind, ar trebui să le poți găsi cu ușurință. Dar nu este așa în prezent.

Google rezolvă problema permițând oamenilor să atașeze niște metadate într-un anumit format care va fi guvernat de unele standarde, pentru a ajuta Google să urmărească mai ușor seturile de date. Aceste metadate ar ajuta Google să facă seturile de date ușor accesibile publicului.

De ce programul este încă în versiune beta?

Deși majoritatea problemelor tehnice au fost abordate, provocările principale sunt unele întrebări care rămân fără răspuns. Unele dintre aceste întrebări sunt: ​​Care este definiția universală a unui set de date? Un singur tabel poate fi numit un set de date? Ce zici de o colecție de tabele? Un folder de imagini? Cum spui că imaginile din folder sunt legate? Sau tabelele găsite împreună sunt legate? Dar un API care oferă un set de date? Este posibil să relaționăm seturi de date similare folosind anumiți parametri?

Problema este că seturile de date au fost construite de-a lungul timpului și sunt stocate în multe formate diferite și nu există nicio modalitate de a găsi date primare sau metadate sau etichete prin care să poată fi identificate imediat din adâncurile internetului. și la asta încearcă să lucreze Google. Deci, ceea ce recomandă ei este ca oamenii care încarcă date, să urmeze convențiile adecvate, iar cei care folosesc datele, în cercetare, să ofere citate adecvate. La urma urmei, Google este doar un motor de căutare. Ne arată date preexistente. Nu poate găsi ceva care nu este într-o stare de găsit. Dacă oamenii nu încep să manipuleze datele în mod responsabil, prin stocarea lor în formatele recomandate și adăugarea de metadate și citate, lucrurile se vor înrăutăți pe măsură ce tot mai multe seturi de date vor fi adăugate pe web, în ​​fiecare zi.

Ei bine, cum să folosești căutarea în setul de date Google?

Puteți căuta diferite tipuri de seturi de date. Și conform Google, un set de date poate fi oricare dintre următoarele:

  • O colecție de mese interconectate, grupate
  • Date în format CSV sau tabel
  • Un set de imagini sau videoclipuri
  • Orice fișier formatat proprietar care conține date
  • Colecție de fișiere care împreună formează un set de date de o anumită formă
  • Un obiect precum un JSON, care poate fi procesat pentru a construi un set de date.
  • Modele binare precum cele produse de Tensorflow
  • Orice lucru care chiar și cu ochiul liber arată ca un set de date.

Acesta este modul în care arată motorul de căutare și puteți continua și căuta ceva exact așa cum ați face în mod normal în căutarea pe web Google:

google-dataset-search-engine-image1 Deci, când am căutat un set de date privind locuințe, am întâlnit acest rezultat:

google-dataset-search-engine-image2

Puteți vedea că Google încearcă să arate cele mai relevante și populare seturi de date legate de doar două cuvinte pe care le-am introdus și, în acest scenariu, Kaggle are multe seturi de date despre locuințe care au fost folosite de mii de utilizatori și, prin urmare, acestea vin la top.

Apoi, am căutat ceva mai specific. Și am obținut următorul rezultat:

google-dataset-search-engine-image3

De data aceasta, puteți vedea că, deoarece am căutat ceva anume, Google a reușit să-mi identifice resursa, ajutându-mă astfel să-mi extind munca mai rapid. Google oferă, de asemenea, câteva descrieri de bază și link-uri pentru ca eu să înțeleg mai multe despre setul de date cu care vreau să lucrez.

Un astfel de serviciu este o mană cerească și mi-aș dori să fie disponibil când am început să învăț știința datelor. Vă recomand să continuați să căutați seturi de date pe Google și să încercați să oferiți cât mai multe informații despre setul de date pe care încercați să îl căutați, astfel încât să găsiți setul de date cel mai potrivit pentru proiectul, studiul sau cercetarea dvs. Între timp, dacă datele de care aveți nevoie nu sunt deja disponibile într-un format gata de utilizare pe web, puteți oricând să ne contactați pentru a configura o accesare cu crawlere personalizată.

În căutarea unui serviciu de web scraping pentru a extrage date pentru dvs., contactați PromptCloud