Una guía completa para el nuevo motor de búsqueda de conjuntos de datos de Google – Promptcloud

Publicado: 2018-10-18
Mostrar tabla de contenido
¿Por qué Google construyó esto ahora?
¿Por qué el programa todavía está en Beta?
Bueno, ¿cómo usar la búsqueda de conjuntos de datos de Google?

Cuando escribí mi primer algoritmo de aprendizaje automático, usé la colección de conjuntos de datos gigantescos alojados por UC Irvine para aprender las cuerdas. Había tantos conjuntos de datos para practicar, 442 para ser exactos. Pero el problema es que estos son conjuntos de datos que han sido utilizados por un montón de personas en todo el mundo, y casi todos los hallazgos que se pueden obtener de ellos ya se han publicado. Además, la ciencia de datos ha progresado en muchos campos. Hay infinitos tipos de conjuntos de datos que es posible que desee estudiar. En ese caso, 442 es minúsculo, casi una gota en el océano, y también existe la búsqueda de conjuntos de datos de Google.

Pero entonces, cada vez que necesitamos buscar algo, lo "googleamos", ¿verdad? Entonces, si necesitara un conjunto de datos con detalles de pacientes con cáncer en una región, para averiguar si vivir en un área urbana aumenta las posibilidades de desarrollar la enfermedad mortal, lo más probable es que termine "buscándolo en Google". Sin embargo, lo que debe comprender es que Google funciona sobre la base de la coincidencia de palabras. Es más probable que obtenga sus artículos con las palabras "Conjunto de datos de pacientes con cáncer" cuando los busca que con conjuntos de datos reales. Y esta es la razón por la que Google lanzó la versión beta de búsqueda de conjuntos de datos de Google el 5 de septiembre de este año.

Ahora, puede buscar palabras clave y encontrar conjuntos de datos asociados con ellas. Pero, ¿con qué necesitas buscar? Todos conocemos ciertos trucos y consejos que funcionan a la hora de buscar en Google. ¿Se aplican tales reglas al buscar un google en particular? Sí, de hecho, según Google, le resultará mucho más fácil recopilar conjuntos de datos del motor de búsqueda de Google, en caso de que proporcione información como el nombre del conjunto de datos, la descripción, la información del creador y el formato (CSV, JSON, etc.). ). Incluso los conjuntos de datos en lenguajes de marcado se pueden descubrir con la ayuda del nuevo motor de búsqueda.

Para las personas que desean que Google ubique conjuntos de datos en sus sitios web y se los muestre a los usuarios, Google dice que aunque la función está en el piloto, las cosas están avanzando y puede comenzar a agregar conjuntos de datos agregando datos estructurados a su sitio web, y lo harán. eventualmente aparecen en el motor de búsqueda cuando las personas buscan términos relevantes.

¿Por qué Google construyó esto ahora?

Bueno, hay miles de repositorios que contienen datos en la web y, a su vez, brindan acceso a millones de conjuntos de datos. Estos conjuntos de datos pueden pertenecer a gobiernos nacionales, internacionales o regionales, organizaciones sin fines de lucro o incluso empresas que desean involucrar al público en el manejo de sus conjuntos de datos. Una gran cantidad de conjuntos de datos está en manos de organizaciones de investigación y facultades de educación superior. El acceso a todos estos conjuntos de datos es fundamental para facilitar el flujo de información. Un conjunto de datos atrapado bajo tarifas de mil dólares también podría estar fuera del alcance de muchos investigadores que podrían haber encontrado algún sentido a partir de los datos.

Pero el problema radica en el volumen. Con tantos datos en Internet, puede resultar muy difícil encontrar un conjunto de datos en particular, incluso si puede reducirlo a una categoría, subcategoría, región y más. Puede especificar si está buscando datos sobre enfermedades, películas, plantas, animales, calamidades, avistamientos de ovnis y más. Y teóricamente hablando, debería poder encontrarlos fácilmente. Pero no es así en la actualidad.

Google está resolviendo el problema al permitir que las personas adjunten algunos metadatos en un formato particular que se regirá por algunos estándares, para ayudar a Google a rastrear los conjuntos de datos más fácilmente. Estos metadatos ayudarían a Google a hacer que los conjuntos de datos sean fácilmente accesibles para el público.

¿Por qué el programa todavía está en Beta?

Si bien se han abordado la mayoría de los problemas técnicos, los principales desafíos son algunas preguntas que siguen sin respuesta. Algunas de estas preguntas son: ¿Cuál es la definición universal de un conjunto de datos? ¿Se puede llamar a una sola tabla un conjunto de datos? ¿Qué tal una colección de tablas? ¿Una carpeta de imágenes? ¿Cómo dices que las imágenes en la carpeta están relacionadas? ¿O las tablas que se encuentran juntas están relacionadas? ¿Qué pasa con una API que proporciona un conjunto de datos? ¿Es posible relacionar conjuntos de datos similares usando ciertos parámetros?

El problema es que los conjuntos de datos se han creado durante mucho tiempo y se almacenan en muchos formatos diferentes, y no hay forma de encontrar datos primarios o metadatos, o una etiqueta con la que se puedan identificar de inmediato desde las profundidades de Internet. y esto es en lo que Google está tratando de trabajar. Entonces, lo que recomiendan es que las personas que cargan datos sigan las convenciones adecuadas y que aquellos que usan los datos, en la investigación, proporcionen las citas adecuadas. Después de todo, Google es solo un motor de búsqueda. Nos muestra datos preexistentes. No puede encontrar algo que no está en un estado para ser encontrado. A menos que las personas comiencen a manejar los datos de manera responsable, almacenándolos en formatos recomendados y agregando metadatos y citas, las cosas solo empeorarán a medida que se agreguen más y más conjuntos de datos a la web, todos los días.

Bueno, ¿cómo usar la búsqueda de conjuntos de datos de Google?

Puede buscar varios tipos de conjuntos de datos. Y según Google, un conjunto de datos puede ser cualquiera de los siguientes:

  • Una colección de tablas interrelacionadas agrupadas
  • Datos en formato CSV o Tabla
  • Un conjunto de imágenes o videos.
  • Cualquier archivo con formato propietario que contenga datos
  • Colección de archivos que juntos forman un conjunto de datos de alguna forma
  • Un objeto como un JSON, que se puede procesar para crear un conjunto de datos.
  • Modelos binarios como los producidos por Tensorflow
  • Cualquier cosa que parezca un conjunto de datos a simple vista.

Así es como se ve el motor de búsqueda y puede continuar y buscar algo como lo haría normalmente en la búsqueda web de Google:

google-dataset-search-engine-image1 Entonces, cuando busqué un conjunto de datos de vivienda, encontré este resultado:

google-dataset-search-engine-image2

Puede ver que Google está tratando de mostrar los conjuntos de datos más relevantes y populares relacionados con solo dos palabras que ingresé, y en este escenario, Kaggle tiene muchos conjuntos de datos de viviendas que han sido utilizados por miles de usuarios y, por lo tanto, estos vienen en el parte superior.

A continuación, busqué algo un poco más específico. Y obtuve el siguiente resultado:

google-dataset-search-engine-image3

Esta vez, puede ver que, dado que busqué algo específico, Google pudo señalarme el recurso, lo que me ayudó a ampliar mi trabajo más rápido. Google también me proporciona algunas descripciones básicas y enlaces para que comprenda más sobre el conjunto de datos con el que quiero trabajar.

Tal servicio es un regalo del cielo, y desearía que estuviera disponible cuando comencé a aprender ciencia de datos. Le recomendaría continuar y buscar conjuntos de datos, en Google, y tratar de brindar la mayor cantidad de información sobre el conjunto de datos que está tratando de buscar, para encontrar el conjunto de datos que mejor se adapte a su proyecto, estudio o investigación. Mientras tanto, si los datos que necesita no están disponibles en un formato listo para usar en la web, siempre puede comunicarse con nosotros para configurar un rastreo personalizado.

Si busca un servicio de raspado web para extraer datos para usted, comuníquese con PromptCloud