Scraping de imágenes para su motor de búsqueda de imágenes
Publicado: 2016-09-29El otro día estaba comprando en línea para comprar un nuevo teléfono móvil. Mirando varios sitios, descubrí que lo único a lo que me refería era el precio (¡por supuesto!). Pero había otro aspecto que seguía buscando, y era una imagen del teléfono que quería. Más tarde me di cuenta de que cuando la descripción no coincidía con la imagen, el factor de confianza era muy bajo para seguir adelante con ese vendedor. Y el sitio donde podía encontrar imágenes de alta resolución que podía acercar y mirar desde múltiples ángulos, fue el sitio en el que me quedé más tiempo. Si su comportamiento de compra o navegación también destaca las imágenes, bienvenido al mundo de la búsqueda de imágenes.

De hecho, esta tendencia es tan dominante en el ecosistema en línea que Google, el gigante de los motores de búsqueda, también ha implementado una búsqueda de imágenes, además de la búsqueda de consulta de texto normal. ¿No nos crees? Luego intente arrastrar una de las imágenes que obtiene a través de su consulta de búsqueda habitual a la cadena de búsqueda para ver a qué me refiero.

¿Ves la imagen a la izquierda del cuadro de búsqueda de texto? Esa es la imagen que le pedí a Google que buscara y los resultados fueron bastante precisos (ese es el Asus ZenFone 3, uno de los muchos teléfonos que estaba investigando para comprar).
Motores de búsqueda de imágenes
Esta nueva forma de recuperación de contenido es posible con la ayuda de un motor de búsqueda de imágenes. No necesita depender solo de la consulta de texto para encontrar información. También puede buscar imágenes similares en función de la imagen de origen que proporcione al motor de búsqueda. Esta es la USP exacta de un motor de búsqueda de imágenes. Se define como un motor de búsqueda diseñado para encontrar información basada en la entrada de una imagen con una visualización de las imágenes. La técnica es utilizada principalmente por compradores y vendedores de comercio electrónico y para buscar más información sobre la imagen de un objeto desconocido o para obtener información crucial sobre cómo los competidores están posicionando un producto determinado.
Quizás se pregunte qué algoritmo genial o aprendizaje automático se ejecuta en segundo plano para permitir que el motor de búsqueda devuelva solo las imágenes relevantes y coincidentes. Bueno, la mayoría de las veces es simple; la imagen busca el nombre y es este nombre el que se recopila y se muestra como resultado de la búsqueda si coincide con la importancia de la imagen consultada. Este método antiguo es la forma básica de raspar imágenes. Al realizar el web scraping, la herramienta verificará si el nombre del archivo contiene la consulta de búsqueda en su totalidad o en parte y devolverá esa imagen.
La mayoría de los desarrolladores, diseñadores y especialistas en marketing digital siguen la convención de cambiar el nombre del archivo original (algo así como IMG_10092015.jpg) a algo significativo y de importancia (algo así como Earl_Grey_Teabag_1332.jpg). Esto es para cumplir con el mandato del algoritmo de Google de proporcionar un nombre sensato a un archivo de imagen como una de las claves para mejorar las señales de clasificación. Y esto es lo que buscará el motor de búsqueda de imágenes para proporcionar resultados de búsqueda precisos.
Por supuesto, esta es solo una de las formas de encontrar imágenes utilizando un motor de búsqueda de imágenes. Las dos formas clave en las que se busca información en línea son:
- Búsqueda de metadatos: como se describe en la sección anterior, la búsqueda de imágenes se ejecuta buscando los metadatos de la imagen. Estos metadatos pueden incluir una o más palabras clave, título, texto+alt o nombre de imagen.
- Recuperación basada en contenido: bajo este tipo de búsqueda, las diversas características de la imagen de origen se utilizan y se ejecutan a través de programas informáticos y software especializado para obtener resultados relevantes. En lugar de los metadatos, este tipo de búsqueda utiliza el contenido de la imagen para buscar. Este tipo de búsqueda de información tiene muchas técnicas subyacentes como las siguientes:
- Enfoque de consulta: el usuario proporciona una imagen de origen, el programa buscará características como forma, color y tamaño.
- Recuperación semántica: el usuario describirá la consulta para encontrar una imagen. Esta es una opción menos utilizada debido a las dificultades obvias para hacer coincidir la imagen con la descripción proporcionada en la consulta de búsqueda.
- Aprendizaje automático: la búsqueda de imágenes mediante el aprendizaje automático se puede impulsar con la ayuda de redes neuronales y aprendizaje profundo.
- Aplicaciones de terceros: se está realizando un trabajo interesante para mejorar la precisión de la imagen cuando se entregan resultados de búsqueda para una consulta de imagen. Un ejemplo de ello es la adquisición en 2006 de Neven Vision por parte de Google.
El raspado de imágenes ayuda a obtener datos e imágenes de varias fuentes y luego migrar sus metadatos e imágenes de manera estructurada. Algunos de los canales de exportación comunes incluyen Excel, bases de datos back-end, CSV o XML. La búsqueda de imágenes en la web ayuda a múltiples beneficiarios, incluidos desarrolladores web, diseñadores, administradores de contenido, periodistas, ejecutivos de marketing o blogueros.

Al usar una araña para rastrear imágenes , el programa buscará cuatro cosas clave
- Título de la página
- Fecha de publicación
- la imagen real
- La URL del sitio
¿Interesado en saber qué sucede después? Entonces sigue leyendo.
Análisis de la búsqueda de imágenes.
Una vez que el programa ha raspado una imagen y mirado los metadatos y el contenido asociado con la imagen, la mayor parte del trabajo está hecho. Sin embargo, aún queda el punto importante de verificar el contenido del archivo de imagen. Así que suponga que si encuentra a Superman , obtendrá varias combinaciones:
- Superman en los cómics
- superhombre en el cine
- Christopher Reeves como Superman
- Henry Cavill como Superman
- Superman en carteles de cine
- superman y fans
…y así
Esta es la etapa de clasificación del proceso de búsqueda de imágenes. El motor arrojará preguntas básicas:
- ¿La imagen tiene una cara?
- ¿Es el perfil frontal?
- ¿Cuál es el color de fondo presente?
- ¿Cuál es el color de primer plano presente y cuál es su frecuencia/intensidad?
- ¿Es una imagen gratuita o con licencia?
- ¿Cuál es el tamaño del archivo?
- ¿Cuál es la resolución de la imagen?
Algunos motores de búsqueda de imágenes como Google van un paso más allá y permiten que los usuarios carguen su propia imagen para encontrarla.
Existen varios criterios para determinar el grado de acierto y precisión del resultado que muestra el buscador de imágenes. Si hay alguno de los siguientes, entonces las posibilidades de obtener resultados precisos se reducen significativamente:
- Demasiado ruido de fondo
- Demasiados colores en el primer plano o en el fondo
- Muy pocos detalles, o
- Baja resolución de la imagen de entrada
Ahora nos fijamos en otro método de clasificación, es decir, la agrupación. Esto intenta juntar todas las imágenes con contenido similar en un grupo. Entonces, siguiendo con el ejemplo anterior, la agrupación agrupará todas estas combinaciones de Superman e incluso incluirá elementos relacionados como Superman vs. Batman o dibujos animados de Superman . Nuevamente, esto proporcionará resultados precisos solo si el ruido en la imagen es menor y la resolución es alta.
Raspar las imágenes
Conseguir un gran número de imágenes es fundamental para construir un motor de búsqueda de imágenes. La adquisición de grandes cantidades de datos requiere una solución de web scraping escalable. El raspado web es la forma más conveniente de adquirir datos de la web, ya sean datos estructurados, URL o imágenes. Es mejor confiar en un proveedor de servicios de raspado web para raspar imágenes para su motor de búsqueda de imágenes.
Antes de cerrar la sesión
Como es evidente, el valor que aporta un buscador de imágenes va mucho más allá de la precisión. Ayuda a los compradores a tomar una decisión de compra informada y aprovechar al máximo su experiencia de usuario web. Para los propietarios de comercio electrónico, les ayuda a recopilar inteligencia crucial sobre el surtido de productos en las tiendas de los rivales y los mantiene actualizados sobre los diversos datos sobre un producto específico. Entonces, si la mayoría de los propietarios de tiendas tienen el iPhone 6s que se vende al por menor en un rango de $ 825, sabría que su tienda también tendría que igualar este precio para ayudar en la conversión de tráfico web en su portal de comercio electrónico. De esta manera, la búsqueda de imágenes también ayuda en la inteligencia de precios.
¿Planea adquirir datos de la web? Estamos aquí para ayudar. Háganos saber acerca de sus requisitos.
