Twój przewodnik po Web Scrape Quora – pytania i odpowiedzi

Opublikowany: 2022-02-17
Spis treści pokaż
Przypadki użycia Quora Scraping
Jak zeskrobać Quora Q&A
Zrozumienie wyników
Ograniczenia dotyczące usuwania treści z Quora
W podsumowaniu

Witryny z pytaniami i odpowiedziami, takie jak Quora, to internetowe centra socjalizacji, w których obywatele cyfrowi na całym świecie mogą zadawać pytania, odpowiadać i omawiać najważniejsze problemy, wątpliwości i tematy. Pozyskiwanie danych na dużą skalę z tych internetowych platform pytań i odpowiedzi może być przydatne zarówno dla marketerów, jak i analityków danych, ponieważ jest to nie tylko wielojęzyczna witryna z pytaniami i odpowiedziami, ale także sama sieć społecznościowa z wieloma niszowymi wpływowymi osobami. Nauczmy się szczegółowo, jak zeskrobać Quorę.

Przypadki użycia Quora Scraping

Aby podkreślić, dlaczego skrobanie Quora jest interesujące dla marketerów i firm, rzućmy okiem na 4 istotne statystyki Quora :

  • Quora jest domem dla 300 milionów aktywnych użytkowników miesięcznie.
  • Przeciętnie użytkownicy spędzają ponad 4 minuty na Quora każdego dnia.
  • Pod względem natężenia ruchu jest to 80. najpopularniejsza strona internetowa na świecie.
  • Wyszukiwarka Google pokazuje aż 65 milionów wyników dla Quora[dot]com.

#1: Analiza sentymentu

Możesz wydrapywać pytania związane z polityką, markami, giełdą itp., aby przeprowadzić analizę sentymentu.

#2: NLP i uczenie maszynowe

Większość użytkowników Quora to prawdziwi użytkownicy, którzy zadają pytania i odpowiedzi na platformie w swoim codziennym żargonie. Może to być bardzo przydatne do uczenia modeli ML i przetwarzania języka naturalnego (NLP).

#3: Inteligentny marketing influencerów

Quora pozwala na wyświetlanie reklam, ale możesz także kierować reklamy do influencerów w określonej niszy, aby promować swoją markę. Pozyskiwanie pytań, profili użytkowników itp. z określonej niszy umożliwiłoby Ci nawiązanie współpracy z odpowiednimi influencerami, którzy mają prawdziwy autorytet w promowaniu Twoich marek.

#4: Generowanie leadów i marketing treści

Pytania zadawane przez użytkowników mogą pomóc Ci określić, czy są oni Twoimi docelowymi potencjalnymi klientami. Na przykład, jeśli jesteś firmą świadczącą usługi IT, to osoby, które zadają pytania typu „Ile kosztuje stworzenie witryny e-commerce?” są twoi potencjalni potencjalni klienci. Spostrzeżenia zdobyte podczas skrobania pytań i odpowiedzi Quora mogą być również twoją bramą do doskonałej strategii content marketingu.

Jak zeskrobać Quora Q&A

Będziemy używać Python3.7 i biblioteki BeautifulSoup do indeksowania danych Quora i zapisywania ich w pliku JSON. Używając tego kodu, będziesz mógł łatwo zeskrobać i wyodrębnić odpowiedzi i pytania Quora. Jedyną inną rzeczą, której będziesz potrzebować, jest przyzwoity edytor tekstu. Użyliśmy PyCharm, który jest w pełni rozwiniętym IDE, ale możesz również użyć Atom, ponieważ zawiera wiele wtyczek i jest lżejszy. Mam nadzieję, że to pomoże ci zrozumieć, jak szczegółowo zeskrobać Quorę.

Aby zacząć od kodu, zaczynamy od zaimportowania bibliotek, których będziemy potrzebować, zarówno wewnętrznych, jak i zewnętrznych. Po zakończeniu musimy upewnić się, że ustawiliśmy tryb weryfikacji certyfikatu SSL na „CERT_NONE” i zaznaczyliśmy nazwę hosta na False, aby uniknąć błędów certyfikatu SSL, gdy zaczniemy zbierać dane. Po wykonaniu tej czynności nasza konfiguracja jest zakończona i możemy zaakceptować pytanie od użytkownika. W tym pokazie, gdy zadano to pytanie, podaliśmy następującą wartość.

Kora

Za pomocą tego pytania tworzymy adres URL Quora. Ta manipulacja ciągiem znaków jest wymagana, ponieważ Quora formatuje w ten sposób swoje adresy URL.

Po utworzeniu adresu URL używamy wbudowanej funkcji Request z urllib, aby trafić na stronę internetową i upewniamy się, że dodaliśmy Firefoksa w nagłówku, aby witryna nie była w stanie śledzić, że uzyskujemy do niej dostęp z fragmentu kodu. Ta część jest ważna, ponieważ większość stron internetowych blokuje skrobaki i jeśli przegapisz nagłówek. Twój adres IP zostanie prawdopodobnie zablokowany, a dalsze działania mogą zostać podjęte przeciwko Tobie.

Zdrap zawartość

Zdrap Quora

Po uzyskaniu strony internetowej w formacie HTML i zapisaniu jej w zmiennej. Musimy przekonwertować go na obiekt BeautifulSoup, aby łatwiej było analizować i wydobywać dane. Następnie wyodrębnij pytanie na stronie internetowej z pierwszego tagu „title” na stronie. Musimy usunąć z niego „ – Quora”, ponieważ wszystkie tytuły mają następujący ciąg. Skrobanie odpowiedzi jest nieco bardziej skomplikowane. Należy wyodrębnić JSON przechowywany w elemencie typu „script” o wartości „type” jako „application/ld+json”. Po uzyskaniu tego JSONa znajdziesz listę odpowiedzi z wieloma polami. Przy każdej odpowiedzi podano kilka pól. Wyodrębniliśmy najważniejsze:

  • Data napisania odpowiedzi
  • Sama odpowiedź
  • Liczba otrzymanych głosów za

Po zakończeniu ekstrakcji danych możemy dołączyć je do listy odpowiedzi i zapisać ostateczną listę w pliku JSON.

Zrozumienie wyników

Podany poniżej plik JSON zawiera niektóre odpowiedzi, które zostały zeskrobane ze strony HTML, gdy uruchomiliśmy kod z pytaniem wymienionym w ostatniej sekcji. Jak widać, JSON ma dwa pola, pytanie i odpowiedzi. Każda odpowiedź składa się z trzech parametrów, o których wspomnieliśmy wcześniej. Chociaż na to pytanie zebrano wiele odpowiedzi. Poniżej pokazaliśmy tylko kilka z nich. Zachęcamy do samodzielnego uruchomienia kodu i sprawdzenia wszystkich odpowiedzi na to pytanie lub inne.

Zawartość

Ograniczenia dotyczące usuwania treści z Quora

Chociaż może to wyglądać na idealne rozwiązanie, aby znaleźć odpowiedzi na każde pytanie dotyczące Quora. Jak każdy inny kawałek kodu DIY, ma wiele ograniczeń. Ważnym aspektem jest to, że nie każde pytanie, które wpiszesz, będzie istnieć w Quorze. Będziesz mieć złamanie kodu za każdym razem, gdy wpiszesz pytanie, które nie istnieje. Jednocześnie może być konieczne wielokrotne wpisanie pytania, aby sprawdzić, która wersja istnieje. Lepszą implementacją byłoby znalezienie pytania, które pasuje do tego, który wpisałeś najbliżej.

Innym aspektem, który należy wziąć pod uwagę, jest kwestia związana ze skrobaniem danych Quora i sposobem ich użycia. Musisz upewnić się, że przeglądasz plik robot.txt i zeskrobujesz dane, a następnie odpowiednio je wykorzystujesz. Jakiekolwiek komercyjne wykorzystanie tego kodu może prowadzić do problemów prawnych. Korzystanie z zebranych danych do celów innych niż badawcze może również powodować problemy.

W podsumowaniu

Media społecznościowe to kopalnia złota dla danych generowanych przez użytkowników. Zbieranie pytań i odpowiedzi Quora jest jak uzyskiwanie dostępu do problemów klientów, upodobań/nielubień/zainteresowań odbiorców. Korzystanie z inteligentnego narzędzia do skrobania usuwa wszystkie problemy związane ze skrobaniem danych Quora . Po wyodrębnieniu danych możesz uruchomić algorytmy uczenia maszynowego oparte na sieciach neuronowych i uzyskać informacje o znaczeniu krytycznym dla firmy.