Panduan Anda untuk Web Scrape Quora Q&As
Diterbitkan: 2022-02-17Situs tanya jawab seperti Quora adalah pusat sosialisasi online bagi warga digital di seluruh dunia untuk bertanya, menjawab, dan mendiskusikan masalah, keraguan, dan topik yang paling menonjol. Mengekstrak data skala besar dari platform Tanya Jawab online ini dapat bermanfaat bagi pemasar dan ilmuwan data karena ini bukan hanya situs web Tanya Jawab multibahasa tetapi juga jaringan sosial itu sendiri dengan banyak influencer khusus. Mari kita pelajari secara detail tentang cara mengikis Quora.
Gunakan Kasus Pengikisan Quora
Untuk menekankan mengapa scraping Quora menarik bagi pemasar dan bisnis, mari kita intip 4 statistik penting Quora :
- Quora adalah rumah bagi 300 juta pengguna aktif bulanan.
- Rata-rata pengguna menghabiskan 4+ menit di Quora setiap hari.
- Dari volume lalu lintas, ini adalah situs web paling populer ke-80 di dunia.
- Pencarian Google menunjukkan sebanyak 65 juta hasil untuk Quora[dot]com.
#1: Analisis sentimen
Anda dapat mengikis pertanyaan yang terkait dengan politik, merek, pasar saham, dll. untuk melakukan analisis sentimen.
#2: NLP & pembelajaran mesin
Sebagian besar pengguna di Quora adalah pengguna nyata, yang mengajukan pertanyaan dan jawaban di platform dalam istilah sehari-hari mereka. Ini bisa sangat berguna untuk melatih model ML, dan pemrosesan bahasa alami (NLP).
#3: Pemasaran influencer yang cerdas
Quora memungkinkan Anda menjalankan iklan tetapi Anda juga dapat menargetkan influencer di ceruk tertentu untuk mempromosikan merek Anda. Scraping pertanyaan, profil pengguna, dll dari ceruk tertentu akan memungkinkan Anda untuk bermitra dengan influencer yang tepat yang memiliki otoritas nyata untuk mempromosikan merek Anda.
#4: Pembuatan prospek & pemasaran konten
Pertanyaan yang diajukan oleh pengguna dapat membantu Anda mengidentifikasi apakah mereka adalah prospek target Anda. Misalnya, jika Anda adalah perusahaan layanan TI, maka orang-orang yang mengajukan pertanyaan seperti “Berapa biaya untuk mengembangkan situs web e-niaga?” adalah prospek potensial Anda. Wawasan yang diperoleh dari membaca Q&As Quora juga bisa menjadi pintu gerbang Anda menuju strategi pemasaran konten yang luar biasa.
Cara Mengikis Tanya Jawab Quora
Kami akan menggunakan Python3.7 dan pustaka BeautifulSoup untuk merayapi data Quora dan menyimpannya dalam file JSON. Dengan menggunakan kode ini, Anda akan dapat mengikis dan mengekstrak jawaban dan pertanyaan Quora dengan mudah. Satu-satunya hal lain yang Anda perlukan adalah editor teks yang layak. Kami telah menggunakan PyCharm, yang merupakan IDE lengkap, tetapi Anda juga dapat menggunakan Atom karena hadir dengan banyak plugin dan lebih ringan. Semoga ini bisa membantu Anda memahami cara mengikis Quora secara detail.
Jadi untuk memulai dengan kode, kita mulai dengan mengimpor perpustakaan yang akan kita perlukan, baik internal maupun eksternal. Setelah selesai, kita perlu memastikan bahwa kita menyetel mode verifikasi sertifikat SSL ke “CERT_NONE”, dan memeriksa nama host ke False, untuk menghindari kesalahan sertifikat SSL saat kita mulai menggores data. Setelah ini selesai, penyiapan kami selesai, dan kami dapat menerima pertanyaan dari pengguna. Untuk demo ini, kami memberikan nilai berikut saat pertanyaan ini diajukan.


Kami membuat URL Quora menggunakan pertanyaan ini. Manipulasi string ini diperlukan karena Quora memformat URL-nya dengan cara ini.
Setelah kami membuat URL, kami menggunakan fungsi Permintaan bawaan dari urllib untuk membuka halaman web dan memastikan bahwa kami menambahkan Firefox di header, sehingga situs web tidak dapat melacak bahwa kami mengaksesnya dari sepotong kode. Bagian ini penting karena sebagian besar situs memblokir pencakar dan jika Anda melewatkan header. IP Anda kemungkinan akan diblokir, dan tindakan lebih lanjut dapat dilakukan terhadap Anda.


Setelah kita mendapatkan halaman web dalam format HTML dan menyimpannya dalam sebuah variabel. Kita perlu mengonversinya menjadi objek BeautifulSoup sehingga lebih mudah untuk mengurai dan mengekstrak data. Kemudian ekstrak pertanyaan di halaman web dari tag "judul" pertama di halaman. Kita perlu menghapus “ – Quora” darinya karena semua judul datang dengan string berikut. Menggores jawabannya sedikit lebih rumit. Anda perlu mengekstrak JSON yang disimpan dalam elemen tipe "script" yang memiliki nilai untuk "type" sebagai "application/ld+json". Setelah Anda mendapatkan JSON ini, Anda akan menemukan daftar jawaban dengan beberapa bidang. Sementara beberapa bidang diberikan untuk setiap jawaban. Kami telah mengekstrak yang paling penting:
- Tanggal di mana jawabannya ditulis
- Jawabannya sendiri
- Jumlah suara positif yang diterimanya
Setelah ekstraksi data selesai, kita dapat menambahkannya ke daftar jawaban dan menyimpan daftar terakhir dalam file JSON.
Memahami Keluaran
File JSON yang diberikan di bawah ini berisi beberapa jawaban yang diambil dari halaman HTML ketika kami menjalankan kode dengan pertanyaan yang disebutkan di bagian terakhir. Seperti yang Anda lihat, JSON memiliki dua bidang, pertanyaan, dan jawaban. Setiap jawaban terdiri dari tiga parameter yang kami sebutkan sebelumnya. Sementara jumlah jawaban yang tergores untuk pertanyaan khusus ini banyak. Kami hanya menunjukkan beberapa di antaranya di bawah ini. Jangan ragu untuk menjalankan kodenya sendiri dan periksa semua jawaban untuk pertanyaan ini, atau yang lainnya.

Batasan Menggores Konten Dari Quora
Meskipun ini mungkin terlihat seperti solusi sempurna untuk menemukan jawaban atas pertanyaan apa pun di Quora. Seperti setiap bagian kode DIY lainnya, ia hadir dengan banyak batasan. Salah satu aspek penting adalah bahwa tidak setiap pertanyaan yang Anda ketik akan ada di Quora. Kode Anda akan pecah setiap kali Anda mengetik pertanyaan yang tidak ada. Pada saat yang sama , Anda mungkin perlu mengetik pertanyaan Anda beberapa kali untuk menemukan versi mana yang ada. Implementasi yang lebih baik adalah menemukan pertanyaan yang cocok dengan yang Anda masukkan paling dekat.
Aspek lain yang perlu dipertimbangkan adalah yang terkait dengan keraguan untuk mengorek data Quora dan bagaimana Anda memilih untuk menggunakannya. Anda perlu memastikan bahwa Anda membuka file robot.txt dan mengikis data, dan menggunakannya dengan tepat. Setiap penggunaan komersial dari kode ini dapat membawa Anda ke masalah hukum. Dan menggunakan data yang dikumpulkan untuk apa pun selain tujuan penelitian juga dapat menimbulkan masalah.
Kesimpulan
Media sosial adalah tambang emas untuk data yang dibuat pengguna. Scraping Quora Q&As seperti mendapatkan akses ke poin rasa sakit pelanggan Anda, suka/tidak suka/minat audiens Anda. Menggunakan alat pengikis cerdas menghilangkan semua rasa sakit Anda yang terkait dengan pengikisan data Quora . Setelah mengekstrak data, Anda dapat menjalankan algoritme ML yang didukung jaringan saraf dan mendapatkan wawasan penting bisnis.
