La tua guida alle domande e risposte di Quora su Web Scrape

Pubblicato: 2022-02-17
Mostra il sommario
Casi d'uso di Quora Scraping
Come raschiare le domande e le risposte di Quora
Comprendere l'output
Limitazioni dello scraping dei contenuti da Quora
In sintesi

I siti di domande e risposte come Quora sono centri di socializzazione online per i cittadini digitali di tutto il mondo per chiedere, rispondere e discutere i problemi, i dubbi e gli argomenti più importanti. L'estrazione di dati su larga scala da queste piattaforme di domande e risposte online può essere utile sia per gli esperti di marketing che per i data scientist in quanto non è solo un sito Web di domande e risposte multilingue, ma anche un social network in sé con molti influencer di nicchia. Impariamo in dettaglio su come raschiare Quora.

Casi d'uso di Quora Scraping

Per sottolineare il motivo per cui raschiare Quora è di interesse per i professionisti del marketing e le aziende, diamo una rapida occhiata a 4 statistiche vitali di Quora :

  • Quora ospita 300 milioni di utenti attivi mensili.
  • In media gli utenti trascorrono più di 4 minuti su Quora ogni giorno.
  • Per volumi di traffico, è l'80° sito web più popolare al mondo.
  • La ricerca su Google mostra fino a 65 milioni di risultati per Quora[dot]com.

#1: Analisi del sentimento

Puoi raschiare domande relative a politica, marchi, mercato azionario ecc. Per eseguire analisi del sentimento.

#2: PNL e apprendimento automatico

La maggior parte degli utenti su Quora sono utenti reali, che fanno domande e risposte sulla piattaforma nel loro gergo quotidiano. Questo potrebbe essere molto utile per la formazione di modelli ML e per l'elaborazione del linguaggio naturale (NLP).

#3: marketing intelligente degli influencer

Quora ti consente di pubblicare annunci, ma puoi anche indirizzare gli influencer in una nicchia particolare per promuovere il tuo marchio. Raschiare domande, profili utente ecc. Da una nicchia specifica ti consentirebbe di collaborare con gli influencer giusti che hanno una reale autorità per promuovere i tuoi marchi.

#4: Generazione di lead e marketing dei contenuti

Le domande poste dagli utenti possono aiutarti a identificare se sono i tuoi contatti target. Ad esempio, se sei una società di servizi IT, le persone che fanno domande come "Quanto costa sviluppare un sito Web di e-commerce?" sono i tuoi potenziali contatti. Le informazioni ottenute dallo scraping di Domande e risposte su Quora possono anche essere la tua porta d'accesso a una strategia di marketing dei contenuti stellare.

Come raschiare le domande e le risposte di Quora

Useremo Python3.7 e la libreria BeautifulSoup per eseguire la scansione dei dati di Quora e salvarli in un file JSON. Usando questo codice, saresti in grado di raschiare ed estrarre facilmente le risposte e le domande di Quora. L'unica altra cosa di cui avrai bisogno è un editor di testo decente. Abbiamo usato PyCharm, che è un IDE completo, ma puoi anche usare Atom poiché viene fornito con più plugin ed è più leggero. Spero che questo ti aiuti a capire come raschiare Quora in dettaglio.

Quindi, per iniziare con il codice, iniziamo importando le librerie di cui avremo bisogno, sia interne che esterne. Una volta fatto, dobbiamo assicurarci di impostare la modalità di verifica del certificato SSL su "CERT_NONE" e controllare il nome host su False, per evitare di ricevere errori del certificato SSL quando iniziamo a raschiare i dati. Una volta fatto ciò, la nostra configurazione è completa e possiamo accettare una domanda dall'utente. Per questa demo, abbiamo fornito il seguente valore quando è stata posta questa domanda.

Quora

Creiamo l'URL di Quora usando questa domanda. Questa manipolazione della stringa è necessaria poiché Quora formatta i suoi URL in questo modo.

Una volta creato l'URL, utilizziamo la funzione di richiesta integrata da urllib per raggiungere la pagina Web e assicurarci di aggiungere Firefox nell'intestazione, in modo che il sito Web non sia in grado di tracciare che stiamo accedendo da un pezzo di codice. Questa parte è importante poiché la maggior parte dei siti Web blocca gli scraper e se perdi l'intestazione. Il tuo IP sarà probabilmente bloccato e potrebbero essere avviate ulteriori azioni contro di te.

Raschia il contenuto

Raschia Quora

Dopo aver ottenuto la pagina web in formato HTML e memorizzata in una variabile. Dobbiamo convertirlo in un oggetto BeautifulSoup in modo che sia più facile analizzare ed estrarre i dati. Quindi estrai la domanda sulla pagina web dal primo tag "titolo" sulla pagina. Dobbiamo rimuovere " – Quora" da esso poiché tutti i titoli hanno la seguente stringa. Raschiare la risposta è leggermente più complicato. È necessario estrarre il JSON archiviato nell'elemento di tipo "script" con il valore di "type" come "application/ld+json". Una volta ottenuto questo JSON, troverai un elenco di risposte con più campi. Mentre vengono forniti pochi campi per ogni risposta. Abbiamo estratto i più importanti:

  • La data in cui è stata scritta la risposta
  • La risposta stessa
  • Il numero di voti positivi ricevuti

Una volta completata l'estrazione dei dati, possiamo aggiungerla a un elenco di risposte e salvare l'elenco finale in un file JSON.

Comprendere l'output

Il file JSON riportato di seguito contiene alcune delle risposte che sono state estratte dalla pagina HTML quando abbiamo eseguito il codice con la domanda menzionata nell'ultima sezione. Come puoi vedere, il JSON ha due campi, la domanda e le risposte. Ogni risposta è costituita dai tre parametri che abbiamo menzionato in precedenza. Mentre il numero di risposte raschiate per questa particolare domanda erano molte. Di seguito ne abbiamo mostrati solo alcuni. Sentiti libero di eseguire tu stesso il codice e controllare tutte le risposte a questa domanda oa qualsiasi altra.

Contenuto

Limitazioni dello scraping dei contenuti da Quora

Anche se questa potrebbe sembrare una soluzione perfetta per trovare le risposte a qualsiasi domanda su Quora. Come ogni altro pezzo di codice fai-da-te, viene fornito con molteplici limitazioni. Un aspetto importante è che non tutte le domande che digiti esisteranno in Quora. Avrai un'interruzione del codice ogni volta che digiti una domanda che non esiste. Allo stesso tempo, potresti dover digitare la tua domanda più volte per scoprire quale versione esiste. Un'implementazione migliore sarebbe trovare la domanda che corrisponde a quella che hai inserito più vicino.

Un altro aspetto da considerare è quello relativo agli scrupoli di raschiare i dati di Quora e al modo in cui scegli di utilizzarli. Devi assicurarti di esaminare il file robot.txt e di eseguire lo scraping dei dati e di utilizzarlo di conseguenza. Qualsiasi uso commerciale di questo codice può portare a problemi legali. E anche l'utilizzo dei dati raccolti per scopi diversi dalla ricerca può causare problemi.

In sintesi

I social media sono una miniera d'oro per i dati generati dagli utenti. Eliminare le domande e le risposte di Quora è come ottenere l'accesso ai punti deboli dei tuoi clienti, ai simpatie/antipatie/interessi del tuo pubblico. L'utilizzo di uno strumento di scraping intelligente elimina tutti i problemi associati allo scraping dei dati di Quora . Una volta estratti i dati, puoi eseguire algoritmi di machine learning basati su reti neurali e ottenere informazioni strategiche per l'azienda.