Seu guia para Web Scrape Q&As do Quora

Publicados: 2022-02-17
Índice mostrar
Casos de uso do Quora Scraping
Como raspar as perguntas e respostas do Quora
Entendendo a saída
Limitações de extrair conteúdo do Quora
Em suma

Sites de perguntas e respostas como o Quora são centros de socialização online para cidadãos digitais em todo o mundo perguntarem, responderem e discutirem as questões, dúvidas e tópicos mais importantes. A extração de dados em larga escala dessas plataformas de perguntas e respostas on-line pode ser útil para profissionais de marketing e cientistas de dados, pois não é apenas um site de perguntas e respostas multilíngue, mas também uma rede social com muitos influenciadores de nicho. Vamos aprender em detalhes como raspar o Quora.

Casos de uso do Quora Scraping

Para enfatizar por que raspar o Quora é interessante para profissionais de marketing e empresas, vamos dar uma olhada rápida em 4 estatísticas vitais do Quora :

  • O Quora é o lar de 300 milhões de usuários ativos mensais.
  • Em média, os usuários gastam mais de 4 minutos no Quora todos os dias.
  • Do volume de tráfego, é o 80º site mais popular do mundo.
  • A pesquisa do Google mostra até 65 milhões de resultados para Quora[dot]com.

#1: Análise de sentimentos

Você pode raspar questões relacionadas à política, marcas, mercado de ações etc. para realizar a análise de sentimentos.

#2: PNL e aprendizado de máquina

A maioria dos usuários do Quora são usuários reais, que fazem perguntas e respostas na plataforma em seu dia-a-dia. Isso pode ser muito útil para treinar modelos de ML e processamento de linguagem natural (NLP).

#3: Marketing inteligente de influenciadores

O Quora permite veicular anúncios, mas você também pode segmentar influenciadores em um nicho específico para promover sua marca. Tirar perguntas, perfis de usuários etc. de um nicho específico permitiria que você fizesse parceria com os influenciadores certos que têm autoridade real para promover suas marcas.

#4: Geração de leads e marketing de conteúdo

As perguntas feitas pelos usuários podem ajudá-lo a identificar se eles são seus leads de destino. Por exemplo, se você é uma empresa de serviços de TI, as pessoas que fazem perguntas como “Quanto custa desenvolver um site de comércio eletrônico?” são seus leads em potencial. Os insights obtidos com a raspagem de perguntas e respostas do Quora também podem ser sua porta de entrada para uma estratégia de marketing de conteúdo estelar.

Como raspar as perguntas e respostas do Quora

Usaremos Python3.7 e a biblioteca BeautifulSoup para rastrear dados do Quora e salvá-los em um arquivo JSON. Usando este código, você seria capaz de extrair e extrair respostas e perguntas do Quora facilmente. A única outra coisa que você vai precisar é um editor de texto decente. Usamos o PyCharm, que é um IDE completo, mas você também pode usar o Atom, pois ele vem com vários plugins e é mais leve. Espero que isso ajude você a entender como raspar o Quora em detalhes.

Então, para começar com o código, começamos importando as bibliotecas que vamos precisar, tanto internas quanto externas. Uma vez feito, precisamos ter certeza de que configuramos o modo de verificação do certificado SSL para “CERT_NONE” e verificar o nome do host como False, para evitar erros de certificado SSL quando começamos a extrair dados. Feito isso, nossa configuração está concluída e podemos aceitar uma pergunta do usuário. Para esta demonstração, fornecemos o seguinte valor quando essa pergunta foi feita.

Quora

Criamos a URL do Quora usando esta pergunta. Essa manipulação de string é necessária, pois o Quora formata seus URLs dessa maneira.

Depois de criarmos a URL, usamos a função de solicitação embutida do urllib para acessar a página da Web e nos certificar de que adicionamos o Firefox no cabeçalho, para que o site não consiga rastrear que estamos acessando a partir de um pedaço de código. Esta parte é importante, pois a maioria dos sites bloqueia scrapers e se você perder o cabeçalho. Seu IP provavelmente será bloqueado e outras ações poderão ser iniciadas contra você.

Raspar conteúdo

Raspe Quora

Depois de obtermos a página da Web no formato HTML e a armazenarmos em uma variável. Precisamos convertê-lo em um objeto BeautifulSoup para que seja mais fácil analisar e extrair dados. Em seguida, extraia a pergunta na página da web da primeira tag “título” na página. Precisamos remover “ – Quora” dele, pois todos os títulos vêm com a seguinte string. Raspar a resposta é um pouco mais complicado. Você precisa extrair o JSON armazenado no elemento do tipo “script” tendo o valor para “type” como “application/ld+json”. Depois de obter este JSON, você encontrará uma lista de respostas com vários campos. Enquanto alguns campos são fornecidos para cada resposta. Extraímos os mais importantes:

  • A data em que a resposta foi escrita
  • A resposta em si
  • O número de votos positivos que recebeu

Quando a extração de dados estiver concluída, podemos anexá-la a uma lista de respostas e salvar a lista final em um arquivo JSON.

Entendendo a saída

O arquivo JSON fornecido abaixo contém algumas das respostas que foram extraídas da página HTML quando executamos o código com a pergunta mencionada na última seção. Como você pode ver, o JSON tem dois campos, a pergunta e as respostas. Cada resposta consiste nos três parâmetros que mencionamos anteriormente. Enquanto o número de respostas raspadas para esta pergunta em particular foram muitos. Mostramos apenas alguns deles abaixo. Sinta-se à vontade para executar o código você mesmo e verificar todas as respostas a esta pergunta ou a qualquer outra.

Contente

Limitações de extrair conteúdo do Quora

Embora isso possa parecer uma solução perfeita para encontrar as respostas para qualquer pergunta no Quora. Como qualquer outro código DIY, ele vem com várias limitações. Um aspecto importante é que nem todas as perguntas que você digitar existirão no Quora. Você terá seu código quebrado toda vez que digitar uma pergunta que não existe. Ao mesmo tempo, talvez seja necessário digitar sua pergunta várias vezes para descobrir qual versão existe. Uma implementação melhor seria encontrar a pergunta que corresponde à que você inseriu mais próximo.

Outro aspecto a ser considerado está relacionado aos problemas de raspar os dados do Quora e como você escolhe usá-los. Você precisa ter certeza de que você passa pelo arquivo robot.txt e coleta os dados, e usa-os de acordo. Qualquer uso comercial deste código pode levar a problemas legais. E o uso dos dados coletados para outros fins que não sejam de pesquisa também pode causar problemas.

Em suma

A mídia social é uma mina de ouro para dados gerados pelo usuário. Tirar as perguntas e respostas do Quora é como obter acesso aos pontos problemáticos de seus clientes, os gostos/desgostos/interesses do seu público. O uso de uma ferramenta de raspagem inteligente elimina todas as suas dores associadas à raspagem de dados do Quora . Depois de extrair seus dados, você pode executar algoritmos de ML baseados em redes neurais e obter insights críticos para os negócios.