Los mejores ejemplos de Web Scraping- por Promptcloud

Publicado: 2019-08-19
Mostrar tabla de contenido
Raspado de datos inmobiliarios usando Python
Extracción de datos de hoteles de los principales portales de viajes
Raspado de datos de redes sociales
Extraer letras de canciones usando Python de sitios como Genius️
Scrape Stock Data Python de sitios como los de Yahoo️ Finance
Extraiga datos de productos, precios y reseñas de sitios web de comercio electrónico
Raspe los datos de sitios web de noticias de sitios web como BBC, New York Times, Al Jazeera
Raspado de datos de trabajo
Raspado de imagen y datos textuales necesarios para la investigación
Web Scraping para la creación de contenido

Los datos se han convertido en un componente clave de la estrategia de crecimiento de todas las empresas. Cuando se trata de recopilar datos, hay muchas fuentes disponibles. Sin embargo, la recopilación manual de datos es difícil debido a dos razones: a) una mayor posibilidad de errores yb) un proceso lento. Una mejor manera de recopilar datos es rastrear datos de la web, en resumen, web scraping. Una vez que haya configurado un sistema para rastrear datos de ciertos sitios y usar los datos raspados dentro de su flujo de trabajo comercial, puede seguir usando el mismo sistema durante muchos años. Hoy discutiremos algunos de los mejores ejemplos de web scraping que hemos encontrado en PromptCloud.

Raspado de datos inmobiliarios usando Python

Este es uno de los datos más buscados en el mundo. La mayoría de los libros o cursos de aprendizaje automático comienzan con un conjunto de casas, sus detalles y sus precios para enseñar regresión lineal antes de pasar a modelos complejos de ML. Algunos de los principales sitios web de bienes raíces en los EE. UU. contienen millones de registros de casas tanto en el mercado como fuera de ella. Incluso contienen precios de alquiler, estimaciones de los precios de las casas después de algunos años, etc. Extrajimos los datos de los principales sitios y puede consultar estos enlaces junto con los archivos JSON con múltiples puntos de datos.

Ejemplo 1

[lenguaje del código=”python”] {
“descripción”: “327 101st St #1A, Brooklyn, NY es una casa de 3 dormitorios, 3 baños y 1302 pies cuadrados en ejecución hipotecaria. Regístrese en Trulia para recibir toda la información sobre ejecuciones hipotecarias.”,
“enlace”: “https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215”,
"precio": {
“cantidad”: “510000”,
"Moneda: USD"
},
“broad-description”: “Unidad dúplex muy grande con un primer piso que cuenta con una sala recreativa terminada, una sala de entretenimiento y medio baño. El segundo nivel cuenta con 2 habitaciones, 2 baños completos, una sala de estar/comedor y un espacio al aire libre. Hay vistas al Puente Verrazano. Vea nuestras Guías de Ejecuciones Hipotecarias”,
"visión general": [
“Condominio”,
“3 Dormitorios”,
“3 Baños”,
“Construido en 2006”,
“5 días en Trulia”,
“1,302 pies cuadrados”,
“$392/pie cuadrado”,
“143 visitas”
] }
[/código]

Ejemplo 2

[lenguaje del código=”python”] {
"Detalles_Broad": {
“Número de Habitaciones”: 4,
“Tamaño del piso (en pies cuadrados)”: “1,728”
},
"Dirección": {
“Calle”: “638 Grant Ave”,
“Localidad”: “North baldwin”,
“Región”: “Nueva York”,
“Código Postal”: “11510”
},
“Título”: “638 Grant Ave, North Baldwin, NY 11510 | MLS n.º 3137924 | Zillow”,
“Detail_Short”: “638 Grant Ave, North baldwin, NY 11510-1332 es una casa unifamiliar listada para la venta en $299,000. La casa de 1,728 pies cuadrados es una propiedad de 4 dormitorios y 2.0 baños. Encuentre 31 fotos de la casa 638 Grant Ave en Zillow. Vea más detalles de propiedades, historial de ventas y datos de Zestimate en Zillow. MLS n.° 3137924”,
“Precio en $”: 299000,
“Imagen”: “https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg”
}
[/código]

Extracción de datos de hoteles de los principales portales de viajes

Los sitios web de reserva de hoteles contienen una gran cantidad de datos, como precios, reseñas, calificaciones, la cantidad de personas que calificaron el hotel y más. En otro artículo, mostramos cómo rastrear datos de la mayor empresa de reservas de reseñas de hoteles.

Usando la biblioteca de análisis de HTML llamada Beautiful Soup, pudimos rastrear múltiples puntos de datos. Con el pequeño fragmento de código que se proporciona a continuación, puede visitar el sitio web, obtener el contenido HTML y convertirlo en un objeto Beautiful Soup. Una vez hecho esto, analizar el objeto y encontrar puntos de datos específicos en etiquetas específicas que tengan ciertos atributos es una tarea sencilla.

[code language=”python”] advertencias.simplefilter(“ignorar”)#Para ignorar los errores del certificado SSL
ctx = ssl.create_default_context()
ctx.check_hostname=Falso
ctx.verify_mode = ssl.CERT_NONE
url=input(“Ingrese la URL del hotel – “)
html = urllib.request.urlopen(url, context=ctx).read()
sopa = BeautifulSoup(html, 'html.parser')
html = sopa.embellecer(“utf-8”)
hotel_json = {}
[/código]

Código para obtener el contenido HTML de una página web y convertirlo en un objeto Beautiful Soup.

Raspado de datos de redes sociales

Una de las mayores fuentes de datos de los usuarios son las redes sociales. Ya sea que desee verificar si a las personas les gusta una canción, una película o una empresa en particular, los datos de las redes sociales pueden ayudarlo a comprender los sentimientos de los usuarios, así como a realizar un seguimiento de la reputación pública de su empresa. En PromptCloud, hemos recopilado datos de Twitter️, Instagram️ e incluso YouTube️. Los puntos de datos en los tres fueron diferentes. Por ejemplo, desde Instagram, el raspado de datos funciona así.

[code language=”python”] Usuario: Ariana Grande (@arianagrande)
Seguidores: 130.5m
Siguiendo: 1,348
Publicaciones: 3,669
[/código]

Datos extraídos de cuentas de Instagram

Sin embargo, los puntos de datos que extrajimos de YouTube️ fueron completamente diferentes. Un ejemplo son los datos extraídos de una canción famosa que condujo a un desafío en línea.

[lenguaje de código = "python"]

{
“TÍTULO”: “Drake – In My Feelings (Letra, Audio) ”Kiki ¿Me amas?”,
“CHANNEL_NAME”: “Unidad especial”,
“NUMBER_OF_VIEWS”: “278,121,686 vistas”,
“ME GUSTA”: “2,407,688”,
“NO ME GUSTA”: “114,933”,
“NÚMERO_DE_SUSCRIPCIONES”: “614K”,
"ETIQUETAS": [
“#EnMisSentimientos”,
"#Pato",
"#Escorpión"
] }
[/código]

Datos extraídos de las páginas de YouTube️

Para Twitter, se debe tener en cuenta que necesitábamos una cuenta de desarrollador, y también podíamos rastrear tweets para cada cuenta, solo hasta la cuenta de los últimos 3240 tweets de ese usuario en particular. Por lo tanto, puede ver que diferentes ejemplos de web scraping pueden tener diferentes enfoques y resultados.

Extraer letras de canciones usando Python de sitios como Genius️

Raspar letras de canciones es algo que la gente ha hecho desde tiempos inmemoriales. La única diferencia es que ahora puedes rastrear las letras de las canciones mucho más fácilmente en unos pocos segundos, usando un código en lugar de pasar horas o minutos haciéndolo manualmente. Un ejemplo de ello es este artículo en el que mostramos cómo rastrear letras de canciones y otros datos relacionados de un sitio web de música popular llamado Genius.

Dado que el sitio web contiene mucho más que solo letras de canciones, también pudimos capturar puntos de datos como comentarios, títulos y fecha de lanzamiento.

Scrape Stock Data Python de sitios como los de Yahoo️ Finance

Los datos del mercado de valores son un gran depósito de datos que generalmente analizan las personas que estudian el mercado y deciden dónde hacer sus apuestas. Tanto los datos actuales como los históricos son de mucho valor. Un sitio web que se puede raspar con bastante facilidad para capturar información bursátil sobre diferentes empresas es Yahoo Finance. La información bursátil no solo significa los precios actuales de las acciones, ya que también pudimos rastrear muchos otros puntos de datos utilizando este proceso.

Estos son los puntos de datos que recopilamos para Apple️

[lenguaje del código=”python”] {
“VALOR_PRESENTE”: “198.87”,
“PRESENT_GROWTH”: “-0.08 (-0.04%)”,
"OTROS DETALLES": {
"PREV_CLOSE": "198,95",
"ABIERTO": "199.20",
“OFERTA”: “198,91 x 800”,
“PEDIR”: “198.99 x 1000”,
“TD_VOLUMEN”: “27,760,668”,
“VOLUMEN_PROMEDIO_3MESES”: “28,641,896”,
“CAPÍTULO_MERCADO”: “937.728B”,
“BETA_3Y”: “0.91”,
“PE_RATIO”: “16.41”,
“EPS_RELACIÓN”: “12.12”,
“FECHA_GANANCIAS”: [
“30 abr 2019”
],
“DIVIDEND_AND_YIELD”: “2.92 (1.50%)”,
“EX_DIVIDEND_DATE”: “2019-02-08”,
“UN_AÑO_TARGET_PRICE”: “193.12”
}
}
[/código]

Extraiga datos de productos, precios y reseñas de sitios web de comercio electrónico

Para obtener información sobre diferentes productos y sus precios de mercado actuales, no hay mejor lugar para recopilar datos que las grandes empresas de comercio electrónico como Amazon️. Si bien Amazon️ tiene diferentes diseños de página en diferentes categorías y subcategorías e incluso en diferentes regiones del mundo, puede rastrear de manera segura una pequeña cantidad de datos en categorías limitadas, como mostramos en esta página, donde extrajimos información de precios y datos de productos. .

Usando el código, puede extraer el precio de un artículo y sus principales características. Una vez que los enlaces que necesitará rastrear regularmente estén listos, puede ejecutar su código con una frecuencia particular. De esta manera, podrá realizar un seguimiento de los cambios de precio de ese artículo y aprovecharlo.

Raspe los datos de sitios web de noticias de sitios web como BBC, New York Times, Al Jazeera

Los agregadores de noticias tienen una gran demanda hoy en día. Son uno de los mejores ejemplos de web scraping que ayudaron directamente a los usuarios a aumentar su productividad. La gente ya no tiene tiempo para leer periódicos o incluso páginas web enteras. Entonces, ¿qué hacen los agregadores de noticias de manera diferente?

  • Los agregadores de noticias recopilan noticias y muestran solo una o dos líneas que explican brevemente un artículo de noticias. En caso de que quiera saber más, puede hacer clic en un enlace y lo dirigirán a una página web de noticias real.
  • Agregan artículos de noticias de grandes agencias de noticias como la BBC️ y el New York Times️ y, a menudo, esto ayuda a brindarle una imagen más completa con más detalles.
  • Con el tiempo, la aplicación determina sus gustos y aversiones y le presenta artículos de noticias según su uso anterior.

Verá, estas son algunas de las cosas que distinguen a los agregadores de noticias y, sin embargo, el primer paso en todos estos procesos es agregar los datos, que a menudo es solo extraer artículos de noticias de diferentes sitios web.

Raspado de datos de trabajo

El reclutamiento es una industria que, al igual que la industria de bienes raíces, ha encontrado un gran impulso gracias al web scraping y al auge de Internet. En estos días, puede rastrear las listas de trabajos tanto de los sitios web de la empresa como de las populares bolsas de trabajo basadas en Internet y luego usar los datos recopilados para impulsar su negocio. Ya sea que sea una empresa de reclutamiento o una consultoría o que administre una bolsa de trabajo usted mismo, el raspado de datos de trabajo es imprescindible. Una de nuestras muchas soluciones de raspado web, JobsPikr, hace que sea muy sencillo obtener listados de trabajo actualizados para administrar la planificación estratégica de su fuerza laboral y administrar el negocio de manera eficiente. Es una herramienta de descubrimiento de trabajo completamente autónoma que puede obtener una nueva lista de trabajos utilizando filtros como título, ubicación, publicación y más.

Raspado de imagen y datos textuales necesarios para la investigación

Se requiere una gran cantidad de datos en proyectos de investigación cuando se trabaja en diferentes modelos de aprendizaje automático. Incluso para entrenar a la computadora para diferenciar entre la imagen de un perro y un gato, necesitarías miles de imágenes de perros y gatos. Dichos requisitos de datos se resuelven a través de soluciones de raspado web y los científicos rastrean imágenes de Google y otras fuentes de imágenes para obtener imágenes para sus proyectos. Usé datos de Twitter para recopilar imágenes que se cargaron en el sitio de redes sociales durante una inundación. Estaba tratando de separar las imágenes que estaban relacionadas con la inundación de las que no.

Web Scraping para la creación de contenido

Las empresas necesitan crear contenido de alta calidad de manera regular para aumentar la visibilidad, educar a los clientes, construir una marca y aumentar las ventas. El raspado de contenido en Internet ayuda a la gente de marketing y publicidad a obtener mejores ideas, intercambiar ideas y encontrar nuevas formas de atraer clientes y aumentar las ventas.

Si bien explicamos algunos de los ejemplos de raspado web, las posibilidades son infinitas y el raspado web es algo que diferentes empresas pueden aprovechar en diferentes escenarios. Al final del día, ayuda a que los procesos y las decisiones sean más inteligentes utilizando el poder de los datos.