Ghidul dvs. pentru întrebările și răspunsurile Web Scrape Quora
Publicat: 2022-02-17Site-urile de întrebări și răspunsuri precum Quora sunt centre de socializare online pentru cetățenii digitali din întreaga lume pentru a întreba, a răspunde și a discuta cele mai importante probleme, îndoieli și subiecte. Extragerea datelor la scară largă de pe aceste platforme online de întrebări și răspunsuri poate fi utilă atât pentru agenții de marketing, cât și pentru oamenii de știință ai datelor, deoarece nu este doar un site web de întrebări și răspunsuri multilingv, ci și o rețea socială în sine, cu mulți influenți de nișă. Să învățăm în detaliu cum să răzuiți Quora.
Cazuri de utilizare a Quora Scraping
Pentru a sublinia de ce scraping Quora este de interes pentru marketeri și companii, haideți să aruncăm o privire rapidă la 4 statistici vitale Quora :
- Quora găzduiește 300 de milioane de utilizatori activi lunar.
- În medie, utilizatorii petrec peste 4 minute pe Quora în fiecare zi.
- Din volumele de trafic, este al 80-lea cel mai popular site din lume.
- Căutarea Google arată până la 65 de milioane de rezultate pentru Quora[dot]com.
#1: Analiza sentimentelor
Puteți răzui întrebări legate de politică, mărci, bursă etc. pentru a efectua o analiză a sentimentelor.
#2: NLP și învățare automată
Majoritatea utilizatorilor de pe Quora sunt utilizatori reali, care pun întrebări și răspunsuri pe platformă în limbajul lor de zi cu zi. Acest lucru ar putea fi foarte util pentru antrenarea modelelor ML și procesarea limbajului natural (NLP).
#3: Marketingul de influență inteligent
Quora vă permite să difuzați reclame, dar puteți viza și influenți dintr-o anumită nișă pentru a vă promova marca. Scraping întrebări, profiluri de utilizatori etc dintr-o anumită nișă v-ar permite să vă asociați cu influențatorii potriviți care au autoritate reală pentru a vă promova mărcile.
#4: Generare de lead-uri și marketing de conținut
Întrebările adresate de utilizatori vă pot ajuta să identificați dacă aceștia sunt clienții potențiali țintă. De exemplu, dacă sunteți o companie de servicii IT, atunci oamenii care pun întrebări precum „Cât costă dezvoltarea unui site web de comerț electronic?” sunt potențialele dvs. potențiale. Perspectivele obținute în urma eliminării întrebărilor și răspunsurilor Quora pot fi, de asemenea, poarta dvs. de acces către o strategie de marketing de conținut stelară.
Cum să răzuiți întrebări și răspunsuri Quora
Vom folosi Python3.7 și biblioteca BeautifulSoup pentru a accesa cu crawlere datele Quora și a le salva într-un fișier JSON. Folosind acest cod, veți putea să răzuiți și să extrageți cu ușurință răspunsurile și întrebările Quora. Singurul lucru de care veți avea nevoie este un editor de text decent. Am folosit PyCharm, care este un IDE complet, dar puteți folosi și Atom, deoarece vine cu mai multe plugin-uri și este mai ușor. Sper că acest lucru vă va ajuta să înțelegeți cum să răzuiți Quora în detaliu.
Deci, pentru a începe cu codul, începem prin a importa bibliotecile de care vom avea nevoie, atât interne, cât și externe. Odată terminat, trebuie să ne asigurăm că setăm modul de verificare al certificatului SSL la „CERT_NONE” și că verificăm numele gazdei la Fals, pentru a evita erorile de certificat SSL atunci când începem răzuirea datelor. Odată ce acest lucru este făcut, configurarea noastră este completă și putem accepta o întrebare de la utilizator. Pentru această demonstrație, am furnizat următoarea valoare când a fost pusă această întrebare.


Creăm adresa URL Quora folosind această întrebare. Această manipulare a șirurilor este necesară, deoarece Quora își formatează adresele URL în acest mod.
Odată ce am creat URL-ul, folosim funcția de solicitare încorporată din urllib pentru a accesa pagina web și ne asigurăm că adăugăm Firefox în antet, astfel încât site-ul web să nu poată urmări dacă îl accesăm dintr-o bucată de cod. Această parte este importantă, deoarece majoritatea site-urilor blochează scraper-urile și dacă ratați antetul. IP-ul dvs. va fi probabil blocat și alte acțiuni pot fi inițiate împotriva dvs.


După ce am obținut pagina web în format HTML și am stocat-o într-o variabilă. Trebuie să-l convertim într-un obiect BeautifulSoup, astfel încât să fie mai ușor să analizăm și să extragem date din. Apoi extrageți întrebarea de pe pagina web din prima etichetă „titlu” de pe pagină. Trebuie să eliminăm „ – Quora” din el, deoarece toate titlurile vin cu următorul șir. Razuirea răspunsului este puțin mai complicată. Trebuie să extrageți JSON-ul stocat în elementul de tip „script” având valoarea „type” ca „application/ld+json”. Odată ce ați obținut acest JSON, veți găsi o listă de răspunsuri cu mai multe câmpuri. În timp ce sunt date puține câmpuri pentru fiecare răspuns. Le-am extras pe cele mai importante:
- Data la care a fost scris răspunsul
- Răspunsul în sine
- Numărul de voturi pozitive pe care le-a primit
Odată ce extragerea datelor este finalizată, o putem atașa la o listă de răspunsuri și salva lista finală într-un fișier JSON.
Înțelegerea ieșirii
Fișierul JSON de mai jos conține câteva dintre răspunsurile care au fost răzuite din pagina HTML când am rulat codul cu întrebarea menționată în ultima secțiune. După cum puteți vedea, JSON are două câmpuri, întrebarea și răspunsurile. Fiecare răspuns constă din cei trei parametri pe care i-am menționat mai devreme. În timp ce numărul de răspunsuri răzuit pentru această întrebare anume a fost multe. Am arătat doar câteva dintre ele mai jos. Simțiți-vă liber să rulați singur codul și să verificați toate răspunsurile la această întrebare sau la oricare alta.

Limitări ale răzuirii conținutului din Quora
Deși aceasta ar putea părea o soluție perfectă pentru a găsi răspunsuri la orice întrebare pe Quora. Ca orice altă bucată de cod DIY, vine cu mai multe limitări. Un aspect important este că nu toate întrebările pe care le introduceți vor exista în Quora. Veți avea pauză de cod de fiecare dată când introduceți o întrebare care nu există. În același timp, ar putea fi necesar să tastați întrebarea de mai multe ori pentru a afla ce versiune există. O implementare mai bună ar fi să găsiți întrebarea care se potrivește cu cea pe care ați introdus-o cel mai aproape.
Un alt aspect de luat în considerare este cel legat de reținerile de a răzui datele Quora și de modul în care alegeți să le utilizați. Trebuie să vă asigurați că parcurgeți fișierul robot.txt și răzuiți datele și le utilizați în consecință. Orice utilizare comercială a acestui cod vă poate duce la probleme juridice. Și utilizarea datelor colectate în orice altceva decât în scopuri de cercetare poate cauza, de asemenea, probleme.
În concluzie
Rețelele sociale sunt o mină de aur pentru datele generate de utilizatori. Scraping Quora Q&As este ca și cum ai avea acces la punctele dureroase ale clienților tăi, la aprecierile/antipatiile/interesele audienței tale. Utilizarea unui instrument inteligent de scraping vă scapă de toate durerile asociate cu răzuirea datelor Quora . Odată ce ați extras datele, puteți rula algoritmi ML alimentați de rețele neuronale și puteți obține informații esențiale pentru afaceri.
