Yeni Google Veri Kümesi Arama Motoru İçin Eksiksiz Bir Kılavuz – Promptcloud

Yayınlanan: 2018-10-18
İçindekiler gösterisi
Google bunu neden şimdi yaptı?
Program neden hala Beta'da?
Peki, google veri kümesi araması nasıl kullanılır?

İlk makine öğrenimi algoritmamı yazdığımda , ipleri öğrenmek için UC Irvine tarafından barındırılan devasa veri seti koleksiyonunu kullandım. Pratik yapmak için çok fazla veri seti vardı, tam olarak 442. Ancak sorun şu ki, bunlar tüm dünyada bir sürü insan tarafından kullanılan veri kümeleri ve onlardan elde edilebilecek neredeyse tüm bulgular zaten yayınlanmış durumda. Ayrıca veri bilimi birçok alanda ilerleme kaydetmiştir. Çalışmak isteyebileceğiniz sonsuz türde veri seti vardır. Bu durumda, 442 ufacık, okyanusta neredeyse bir damla ve google veri kümesi araması da mevcut.

Ama sonra, ne zaman bir şey aramamız gerekirse, onu "Google"lıyoruz, değil mi? Dolayısıyla, bir kentsel alanda yaşamanın ölümcül hastalığa yakalanma şansını artırıp artırmadığını bulmak için bir bölgedeki kanser hastalarının ayrıntılarını içeren bir veri setine ihtiyacım olsaydı, büyük olasılıkla onu “Googling” yapardım. Ancak anlamanız gereken şey, Google'ın kelime eşleme esasına göre çalıştığıdır. Makalelerinizi aradığınızda size gerçek veri kümelerini vermekten ziyade “Kanser hastalarının veri kümesi” kelimesini içeren makalelerinizi getirmeniz daha olasıdır. Google'ın bu yıl 5 Eylül'de Google veri kümesi arama beta sürümünü başlatmasının nedeni de budur.

Artık anahtar kelimeleri arayabilir ve bunlarla ilişkili veri kümelerini bulabilirsiniz. Ama ne ile aramanız gerekiyor? Google'da arama yaparken işe yarayan bazı püf noktaları ve ipuçlarını hepimiz biliyoruz. Belirli bir google'ı ararken bu tür kurallar geçerli mi? Evet, gerçekten de, Google'a göre, veri kümesinin adı, açıklaması, oluşturucu bilgisi ve biçim (CSV, JSON, vb .) gibi bilgileri sağlamanız durumunda, Google Arama Motorundan veri kümelerini toplamayı çok daha kolay bulacaksınız. ). İşaretleme dillerindeki veri kümeleri bile yepyeni arama motorunun yardımıyla keşfedilebilir.

Google'ın web sitelerinde veri kümelerini bulmasını ve kullanıcılara göstermesini isteyen kişiler için Google, özelliğin pilot aşamasında olmasına rağmen işlerin hızlandığını ve web sitenize yapılandırılmış veriler ekleyerek veri kümesi eklemeye başlayabileceğinizi söylüyor. insanlar alakalı terimlerle arama yaptığında sonunda arama motorunda çıkar.

Google bunu neden şimdi yaptı?

Web'de veri içeren binlerce havuz var ve bunlar da milyonlarca veri kümesine erişim sağlıyor. Bu veri kümeleri, Ulusal, Uluslararası veya bölgesel Hükümetlere, Kâr Amacı Gütmeyen Kuruluşlara ve hatta veri kümeleriyle uğraşırken halkı meşgul etmek isteyen şirketlere ait olabilir. Araştırma kuruluşları ve yüksek öğrenim kolejleri tarafından büyük miktarda veri kümesi halka açık olarak tutulmaktadır. Tüm bu veri kümelerine erişim, kolay bilgi akışını kolaylaştırmak için kritik öneme sahiptir. Bin dolarlık ücretin altında sıkışıp kalmış bir veri seti, verilerden bir anlam çıkarabilecek birçok araştırmacının erişiminin ötesinde olabilir.

Ama sorun hacimde. İnternette bu kadar çok veri varken, belirli bir veri kümesini bir kategori, alt kategori, bölge ve daha fazlasına indirgeseniz bile bulmak çok zor olabilir. Hastalıklar, filmler, bitkiler, hayvanlar, felaketler, UFO gözlemleri ve daha fazlası hakkında veri aramak isteyip istemediğinizi belirtebilirsiniz. Ve teorik olarak, bunları kolayca bulabilmelisiniz. Ama şu anda öyle değil.

Google, Google'ın veri kümelerini daha kolay izlemesine yardımcı olmak için, insanların bazı standartlara tabi olacak belirli bir biçimde bazı meta verileri eklemesine izin vererek sorunu çözüyor. Bu meta veriler, Google'ın veri kümelerini herkes tarafından kolayca erişilebilir hale getirmesine yardımcı olacaktır.

Program neden hala Beta'da?

Teknik konuların çoğu ele alınmış olsa da, asıl zorluklar cevapsız kalan bazı sorulardır. Bu sorulardan bazıları şunlardır: Bir veri kümesinin evrensel tanımı nedir? Tek bir tablo veri kümesi olarak adlandırılabilir mi? Bir tablo koleksiyonuna ne dersiniz? Bir resim klasörü mü? Klasördeki görüntülerin ilişkili olduğunu nasıl söylersiniz? Veya birlikte bulunan tablolar birbiriyle ilişkili mi? Veri kümesi veren bir API'ye ne dersiniz? Belirli parametreleri kullanarak benzer veri kümelerini ilişkilendirmek mümkün müdür?

Sorun şu ki, veri kümeleri uzun bir süredir oluşturulmuş ve birçok farklı biçimde saklanıyor ve internetin derinliklerinden anında tanımlanabilecekleri bir birincil veri veya meta veri veya etiket bulmanın bir yolu yok. ve Google'ın üzerinde çalışmaya çalıştığı şey de bu. Bu yüzden önerdikleri şey, veri yükleyen kişilerin uygun kuralları takip etmeleri ve verileri araştırmada kullananların uygun alıntılar yapmalarıdır. Sonuçta, Google sadece bir arama motorudur. Bize önceden var olan verileri gösterir. Bulunacak durumda olmayan bir şeyi bulamaz. İnsanlar, verileri önerilen biçimlerde depolayarak ve meta veriler ve alıntılar ekleyerek sorumlu bir şekilde işlemeye başlamadıkça, her gün web'e giderek daha fazla veri kümesi eklendikçe işler daha da kötüleşecektir.

Peki, google veri kümesi araması nasıl kullanılır?

Çeşitli veri kümeleri türlerini arayabilirsiniz. Ve Google'a göre, bir veri kümesi aşağıdakilerden herhangi biri olabilir:

  • Bir araya toplanmış birbiriyle ilişkili tablolardan oluşan bir koleksiyon
  • CSV veya Tablo biçimindeki veriler
  • Bir dizi resim veya video
  • Veri içeren herhangi bir tescilli biçimlendirilmiş dosya
  • Birlikte bir tür veri kümesi oluşturan dosyaların toplanması
  • Bir veri kümesi oluşturmak için işlenebilen JSON gibi bir nesne.
  • Tensorflow tarafından üretilenler gibi ikili modeller
  • Çıplak gözle bile veri kümesi gibi görünen herhangi bir şey.

Arama motorunun görünümü budur ve Google web aramasında normalde yaptığınız gibi devam edip bir şeyler arayabilirsiniz:

google-dataset-search-engine-image1 Böylece bir konut veri seti aradığımda şu sonuçla karşılaştım:

google-dataset-arama motoru-image2

Google'ın girdiğim sadece iki kelimeyle ilgili en alakalı ve popüler veri kümelerini göstermeye çalıştığını görebilirsiniz ve bu senaryoda Kaggle'ın binlerce kullanıcı tarafından kullanılmış birçok konut veri kümesi var ve bu nedenle bunlar en üst sıralarda geliyor. tepe.

Sonra, biraz daha spesifik bir şey aradım. Ve aşağıdaki sonucu aldı:

google-dataset-arama motoru-image3

Bu sefer, belirli bir şey aradığım için Google'ın kaynağı bana tam olarak belirleyebildiğini ve böylece çalışmamı daha hızlı büyütmeme yardımcı olduğunu görebilirsiniz. Google ayrıca, birlikte çalışmak istediğim veri kümesi hakkında daha fazla bilgi edinmem için bazı temel açıklamalar ve bağlantılar sağlıyor.

Böyle bir hizmet bir nimettir ve bunun veri bilimi öğrenmeye başladığımda mevcut olmasını isterdim. Projeniz, çalışmanız veya araştırmanız için en uygun veri kümesini bulmak için devam edip Google'da veri kümeleri aramanızı ve aramaya çalıştığınız veri kümesi hakkında çok fazla bilgi vermeye çalışmanızı tavsiye ederim. Bu arada, ihtiyacınız olan veriler web'de kullanıma hazır bir biçimde mevcut değilse, özel bir tarama ayarlamak için her zaman bize ulaşabilirsiniz.

PromptCloud ile iletişime geçmeniz için verileri çıkarmak için bir web kazıma hizmeti arıyorsunuz