Su guía para Web Scrape Preguntas y respuestas de Quora
Publicado: 2022-02-17Los sitios de preguntas y respuestas como Quora son centros de socialización en línea para que los ciudadanos digitales de todo el mundo pregunten, respondan y discutan los problemas, dudas y temas más destacados. La extracción de datos a gran escala de estas plataformas de preguntas y respuestas en línea puede ser útil tanto para los especialistas en marketing como para los científicos de datos, ya que no solo es un sitio web multilingüe de preguntas y respuestas, sino también una red social en sí misma con muchas personas influyentes de nicho. Aprendamos en detalle sobre cómo raspar Quora.
Casos de uso de raspado de Quora
Para enfatizar por qué raspar Quora es de interés para los vendedores y las empresas, echemos un vistazo rápido a 4 estadísticas vitales de Quora :
- Quora es el hogar de 300 millones de usuarios activos mensuales.
- En promedio, los usuarios pasan más de 4 minutos en Quora todos los días.
- Por volumen de tráfico, es el 80º sitio web más popular del mundo.
- La búsqueda de Google muestra hasta 65 millones de resultados para Quora[dot]com.
#1: Análisis de sentimiento
Puede raspar preguntas relacionadas con la política, las marcas, el mercado de valores, etc. para realizar un análisis de sentimiento.
#2: PNL y aprendizaje automático
La mayoría de los usuarios de Quora son usuarios reales, que hacen preguntas y respuestas en la plataforma en su jerga cotidiana. Esto podría ser muy útil para entrenar modelos ML y procesamiento de lenguaje natural (NLP).
#3: Marketing inteligente de influencers
Quora le permite publicar anuncios, pero también puede dirigirse a personas influyentes en un nicho particular para promocionar su marca. Extraer preguntas, perfiles de usuario, etc. de un nicho específico le permitiría asociarse con las personas influyentes adecuadas que tienen autoridad real para promocionar sus marcas.
#4: generación de leads y marketing de contenidos
Las preguntas que hacen los usuarios pueden ayudarlo a identificar si son sus clientes potenciales objetivo. Por ejemplo, si es una empresa de servicios de TI, las personas que hacen preguntas como "¿Cuánto cuesta desarrollar un sitio web de comercio electrónico?" son sus clientes potenciales. La información obtenida al raspar las preguntas y respuestas de Quora también puede ser su puerta de entrada a una estrategia de marketing de contenido estelar.
Preguntas y respuestas sobre cómo raspar Quora
Usaremos Python3.7 y la biblioteca BeautifulSoup para rastrear datos de Quora y guardarlos en un archivo JSON. Con este código, podrá raspar y extraer fácilmente las respuestas y preguntas de Quora. Lo único que necesitará es un editor de texto decente. Hemos usado PyCharm, que es un IDE completo, pero también puede usar Atom, ya que viene con múltiples complementos y es más liviano. Espero que esto te ayude a comprender cómo raspar Quora en detalle.
Entonces, para comenzar con el código, comenzamos importando las bibliotecas que necesitaremos, tanto internas como externas. Una vez hecho esto, debemos asegurarnos de establecer el modo de verificación del certificado SSL en "CERT_NONE" y verificar el nombre de host en Falso, para evitar obtener errores de certificado SSL cuando comencemos a extraer datos. Una vez hecho esto, nuestra configuración está completa y podemos aceptar una pregunta del usuario. Para esta demostración, proporcionamos el siguiente valor cuando se hizo esta pregunta.


Creamos la URL de Quora usando esta pregunta. Esta manipulación de cadenas es necesaria ya que Quora formatea sus URL de esta manera.
Una vez que hemos creado la URL, usamos la función de solicitud incorporada de urllib para acceder a la página web y asegurarnos de agregar Firefox en el encabezado, de modo que el sitio web no pueda rastrear que estamos accediendo desde un código. Esta parte es importante ya que la mayoría de los sitios web bloquean los raspadores y si se pierde el encabezado. Su IP probablemente será bloqueada y se pueden iniciar más acciones en su contra.


Después hemos obtenido la página web en formato HTML y la hemos almacenado en una variable. Necesitamos convertirlo en un objeto BeautifulSoup para que sea más fácil analizar y extraer datos. Luego extraiga la pregunta en la página web desde la primera etiqueta de "título" en la página. Necesitamos eliminar "- Quora" ya que todos los títulos vienen con la siguiente cadena. Raspar la respuesta es un poco más complicado. Debe extraer el JSON almacenado en el elemento de tipo "script" que tiene el valor de "tipo" como "aplicación/ld+json". Una vez que haya obtenido este JSON, encontrará una lista de respuestas con múltiples campos. Si bien se dan pocos campos para cada respuesta. Hemos extraído los más importantes:
- La fecha en que se escribió la respuesta.
- la respuesta en si
- El número de votos a favor que recibió
Una vez que se completa la extracción de datos, podemos agregarlos a una lista de respuestas y guardar la lista final en un archivo JSON.
Comprender la salida
El archivo JSON que se proporciona a continuación contiene algunas de las respuestas que se extrajeron de la página HTML cuando ejecutamos el código con la pregunta mencionada en la última sección. Como puede ver, el JSON tiene dos campos, la pregunta y las respuestas. Cada respuesta consta de los tres parámetros que mencionamos anteriormente. Si bien la cantidad de respuestas raspadas para esta pregunta en particular fueron muchas. Solo hemos mostrado algunos de ellos a continuación. Siéntase libre de ejecutar el código usted mismo y verificar todas las respuestas a esta pregunta o cualquier otra.

Limitaciones de extraer contenido de Quora
Si bien esto puede parecer una solución perfecta para encontrar las respuestas a cualquier pregunta en Quora. Como cualquier otra pieza de código de bricolaje, viene con múltiples limitaciones. Un aspecto importante es que no todas las preguntas que escriba existirán en Quora. Su código se romperá cada vez que escriba una pregunta que no existe. Al mismo tiempo, es posible que deba escribir su pregunta varias veces para encontrar qué versión existe. Una mejor implementación sería encontrar la pregunta que coincida con la que ingresó más cercana.
Otro aspecto a considerar es uno relacionado con las dudas de raspar los datos de Quora y cómo elige usarlos. Debe asegurarse de revisar el archivo robot.txt y raspar los datos, y usarlos en consecuencia. Cualquier uso comercial de este código puede generar problemas legales. Y el uso de los datos recopilados para cualquier otra cosa que no sean fines de investigación también puede causar problemas.
En resumen
Las redes sociales son una mina de oro para los datos generados por los usuarios. Scraping Quora Q&As es como obtener acceso a los puntos débiles de sus clientes, los gustos/disgustos/intereses de su audiencia. El uso de una herramienta de raspado inteligente elimina todos los dolores asociados con el raspado de datos de Quora . Una vez que haya extraído sus datos, puede ejecutar algoritmos de ML impulsados por redes neuronales y obtener información crítica para el negocio.
