Kompletny przewodnik po nowej wyszukiwarce zbiorów danych Google — Promptcloud
Opublikowany: 2018-10-18Kiedy napisałem swój pierwszy algorytm uczenia maszynowego, użyłem zbioru danych mamuta hostowanego przez UC Irvine, aby nauczyć się zasad. Było tak wiele zbiorów danych do przećwiczenia, dokładnie 442. Problem polega jednak na tym, że są to zbiory danych, z których korzystało mnóstwo ludzi na całym świecie, a prawie wszystkie odkrycia, jakie można z nich uzyskać, zostały już opublikowane. Ponadto nauka o danych rozwinęła się w wielu dziedzinach. Istnieje nieskończenie wiele rodzajów zbiorów danych, które warto przestudiować. W takim przypadku 442 to maleńka, prawie kropla w morzu, podobnie jak wyszukiwanie w zbiorze danych Google.
Ale wtedy, gdy potrzebujemy czegoś szukać, „Google” to, prawda? Więc jeśli potrzebowałbym zestawu danych ze szczegółami pacjentów z rakiem w regionie, aby dowiedzieć się, czy życie w obszarze miejskim zwiększa szanse na rozwój śmiertelnej choroby, najprawdopodobniej skończyłbym go „googlować”. Musisz jednak zrozumieć, że Google działa na podstawie dopasowywania słów. Bardziej prawdopodobne jest, że poszukasz artykułów zawierających słowa „Zbiór danych pacjentów z rakiem”, niż podasz rzeczywiste zbiory danych. I to jest powód, dla którego Google uruchomiło wersję beta wyszukiwania zbiorów danych Google 5 września tego roku.
Teraz możesz wyszukiwać słowa kluczowe i znajdować powiązane z nimi zestawy danych. Ale czym potrzebujesz szukać? Wszyscy znamy pewne sztuczki i wskazówki, które sprawdzają się podczas wyszukiwania w Google. Czy przy wyszukiwaniu konkretnego google obowiązują takie zasady? Tak, rzeczywiście, według Google znacznie łatwiej będzie zebrać zbiory danych z wyszukiwarki Google, jeśli podasz takie informacje, jak nazwa zbioru danych, opis, informacje o twórcy i format (CSV, JSON itp. ). Nawet zbiory danych w językach znaczników można odkryć za pomocą zupełnie nowej wyszukiwarki.
Dla osób, które chcą, aby Google zlokalizowało zbiory danych w ich witrynach i pokazywało je użytkownikom, Google mówi, że chociaż funkcja jest w fazie pilotażowej, sprawy nabierają tempa i możesz zacząć dodawać zestaw danych, dodając dane strukturalne do swojej witryny, a oni będą w końcu pojawiają się w wyszukiwarce, gdy ludzie szukają odpowiednich terminów.
Dlaczego Google zbudowało to teraz?
Cóż, w sieci istnieją tysiące repozytoriów zawierających dane, które z kolei zapewniają dostęp do milionów zbiorów danych. Te zbiory danych mogą należeć do rządów krajowych, międzynarodowych lub regionalnych, organizacji non-profit, a nawet firm, które chcą zaangażować społeczeństwo w zajmowanie się swoimi zbiorami danych. Ogromna ilość zbiorów danych jest publicznie przechowywana przez organizacje badawcze i uczelnie wyższe. Dostęp do wszystkich tych zbiorów danych ma kluczowe znaczenie, aby ułatwić łatwy przepływ informacji. Zestaw danych uwięziony pod tysiącami dolarów opłat może równie dobrze być poza zasięgiem wielu badaczy, którzy mogliby mieć jakiś sens na podstawie danych.
Ale problem tkwi w głośności. Przy tak dużej ilości danych w Internecie znalezienie konkretnego zestawu danych może okazać się bardzo trudne, nawet jeśli możesz zawęzić go do kategorii, podkategorii, regionu i innych. Możesz określić, czy szukasz danych dotyczących chorób, filmów, roślin, zwierząt, katastrof, obserwacji UFO i innych. I teoretycznie, powinieneś być w stanie je łatwo znaleźć. Ale obecnie tak nie jest.
Google rozwiązuje ten problem, umożliwiając użytkownikom dołączanie niektórych metadanych w określonym formacie, który będzie podlegał pewnym standardom, aby ułatwić Google śledzenie zbiorów danych. Te metadane pomogłyby Google w łatwym publicznym udostępnianiu zbiorów danych.

Dlaczego program jest nadal w wersji beta?
Chociaż większość problemów technicznych została rozwiązana, głównymi wyzwaniami są pytania, na które nie ma odpowiedzi. Niektóre z tych pytań to: Jaka jest uniwersalna definicja zbioru danych? Czy pojedynczą tabelę można nazwać zbiorem danych? A co z kolekcją stołów? Folder z obrazami? Jak można powiedzieć, że obrazy w folderze są ze sobą powiązane? Czy tabele znalezione razem są ze sobą powiązane? A co z interfejsem API, który udostępnia zbiór danych? Czy możliwe jest powiązanie podobnych zbiorów danych przy użyciu określonych parametrów?
Problem polega na tym, że zbiory danych były budowane przez długi czas i są przechowywane w wielu różnych formatach i nie ma sposobu na znalezienie danych pierwotnych lub metadanych lub tagu, dzięki któremu można je natychmiast zidentyfikować z głębi internetu i nad tym pracuje Google. Dlatego zalecają osobom, które przesyłają dane, przestrzeganie odpowiednich konwencji, a tym, którzy wykorzystują dane w badaniach, do dostarczania odpowiednich cytatów. W końcu Google to tylko wyszukiwarka. Pokazuje nam istniejące wcześniej dane. Nie może znaleźć czegoś, co nie jest w stanie znaleźć. Jeśli ludzie nie zaczną odpowiedzialnie obchodzić się z danymi, przechowując je w zalecanych formatach i dodając metadane oraz cytaty, sytuacja będzie się tylko pogarszać, ponieważ coraz więcej zestawów danych będzie dodawanych do sieci każdego dnia.
Jak korzystać z wyszukiwania w zbiorze danych Google?
Możesz wyszukiwać różne typy zbiorów danych. Według Google zbiór danych może być jednym z następujących:
- Zbiór powiązanych ze sobą tabel zgrupowanych razem
- Dane w formacie CSV lub tabeli
- Zestaw obrazów lub filmów
- Wszelkie zastrzeżone pliki sformatowane, które zawierają dane
- Zbiór plików, które razem tworzą zbiór danych o pewnej formie
- Obiekt taki jak JSON, który można przetworzyć w celu utworzenia zestawu danych.
- Modele binarne, takie jak te produkowane przez Tensorflow
- Wszystko, co nawet gołym okiem wygląda jak zbiór danych.
Oto jak wygląda wyszukiwarka i możesz przejść dalej i wyszukać coś tak, jak zwykle w wyszukiwarce Google:
Więc kiedy szukałem zestawu danych dotyczących mieszkań, spotkałem się z następującym wynikiem:

Widać, że Google stara się pokazać najbardziej odpowiednie i popularne zestawy danych związane tylko z dwoma słowami, które wprowadziłem, a w tym scenariuszu Kaggle ma wiele zestawów danych mieszkaniowych, które były używane przez tysiące użytkowników, a więc te pochodzą z Top.
Następnie szukałem czegoś bardziej konkretnego. I otrzymałem następujący wynik:

Tym razem widać, że odkąd szukałem czegoś konkretnego, Google był w stanie wskazać mi zasób, co pomogło mi w szybszym skalowaniu mojej pracy. Google udostępnia również kilka podstawowych opisów i linków, aby lepiej poznać zbiór danych, z którym chcę pracować.
Taka usługa jest darem niebios i chciałbym, żeby była dostępna, kiedy zacząłem uczyć się data science. Sugerowałbym, abyś kontynuował wyszukiwanie zbiorów danych w Google i spróbował podać jak najwięcej informacji o zbiorze danych, który próbujesz przeszukać, aby znaleźć najlepiej pasujący zestaw danych do twojego projektu, badania lub badania. Tymczasem, jeśli potrzebne dane nie są już dostępne w gotowym do użycia formacie w internecie, zawsze możesz skontaktować się z nami, aby skonfigurować niestandardowe indeksowanie.
Szukasz usługi skrobania sieci, aby wyodrębnić dane dla Ciebie, skontaktuj się z PromptCloud
