Web Scrape Quora Soru-Cevap Kılavuzunuz

Yayınlanan: 2022-02-17
İçindekiler gösterisi
Quora Kazıma Örneklerini Kullanın
Quora Soru-Cevap Nasıl Kazılır?
Çıktıyı Anlamak
Quora'dan İçeriği Kazımanın Sınırlamaları
Özetle

Quora gibi soru-cevap siteleri, dünya çapındaki dijital vatandaşların en belirgin sorunları, şüpheleri ve konuları sorması, yanıtlaması ve tartışması için çevrimiçi sosyalleşme merkezleridir. Bu çevrimiçi Soru-Cevap platformlarından büyük ölçekli verilerin çıkarılması, yalnızca çok dilli bir Soru-Cevap web sitesi değil, aynı zamanda birçok niş etkileyiciye sahip bir sosyal ağ olduğu için pazarlamacılar ve veri bilimcileri için faydalı olabilir. Quora'yı nasıl kazıyacağımızı ayrıntılı olarak öğrenelim.

Quora Kazıma Örneklerini Kullanın

Quora'yı kazımanın neden pazarlamacılar ve işletmeler için ilgi çekici olduğunu vurgulamak için, 4 hayati Quora istatistiğine hızlıca göz atalım :

  • Quora, aylık 300 milyon aktif kullanıcıya ev sahipliği yapıyor.
  • Ortalama olarak kullanıcılar Quora'da her gün 4+ dakika harcıyor.
  • Trafik hacimlerinden, dünyanın en popüler 80. web sitesidir.
  • Google araması , Quora[dot]com için 65 milyon kadar sonuç gösterir.

#1: Duygu analizi

Duyarlılık analizi yapmak için siyaset, markalar, borsa vb. ile ilgili soruları sıyırabilirsiniz.

#2: NLP ve makine öğrenimi

Quora'daki kullanıcıların çoğu, platformda günlük dillerinde sorular ve cevaplar soran gerçek kullanıcılardır. Bu, makine öğrenimi modelleri ve doğal dil işleme (NLP) eğitimi için çok yararlı olabilir.

# 3: Akıllı etkileyici pazarlama

Quora, reklam yayınlamanıza izin verir, ancak markanızı tanıtmak için belirli bir niş içindeki etkileyicileri de hedefleyebilirsiniz. Belirli bir nişten gelen soruları, kullanıcı profillerini vb. kazımak, markalarınızı tanıtmak için gerçek yetkiye sahip doğru etkileyicilerle ortak olmanızı sağlar.

#4: Potansiyel müşteri yaratma ve içerik pazarlaması

Kullanıcılar tarafından sorulan sorular, hedef potansiyel müşterileriniz olup olmadığını belirlemenize yardımcı olabilir. Örneğin, bir BT hizmetleri şirketiyseniz, “Bir e-ticaret sitesi geliştirmenin maliyeti nedir?” gibi sorular soran insanlar. potansiyel müşterilerinizdir. Quora Soru-Cevapları'ndan elde edilen bilgiler, aynı zamanda mükemmel bir içerik pazarlama stratejisine açılan kapınız olabilir.

Quora Soru-Cevap Nasıl Kazılır?

Quora verilerini taramak ve bir JSON dosyasına kaydetmek için Python3.7 ve BeautifulSoup kitaplığını kullanacağız. Bu kodu kullanarak Quora yanıtlarını ve sorularını kolayca kazıyabilir ve ayıklayabilirsiniz. İhtiyacınız olan diğer tek şey iyi bir metin editörüdür. Tam gelişmiş bir IDE olan PyCharm'ı kullandık, ancak birden fazla eklentiyle geldiği ve daha hafif olduğu için Atom'u da kullanabilirsiniz. Umarım bu, Quora'yı nasıl ayrıntılı olarak kazıyacağınızı anlamanıza yardımcı olur.

Kodla başlamak için, hem dahili hem de harici olarak ihtiyaç duyacağımız kitaplıkları içe aktararak başlıyoruz. Bir kez bittiğinde, verileri kazımaya başladığımızda SSL sertifikası hataları almamak için SSL sertifikasının doğrulama modunu “CERT_NONE” olarak ayarladığımızdan ve ana bilgisayar adını False olarak kontrol ettiğimizden emin olmamız gerekiyor. Bu yapıldıktan sonra kurulumumuz tamamlandı ve kullanıcıdan bir soru kabul edebiliriz. Bu demo için, bu soru sorulduğunda aşağıdaki değeri sağladık.

Quora

Bu soruyu kullanarak Quora URL'sini oluşturuyoruz. Quora, URL'lerini bu şekilde biçimlendirdiği için bu dize manipülasyonu gereklidir.

URL'yi oluşturduktan sonra, web sayfasına ulaşmak için urllib'deki yerleşik İstek işlevini kullanırız ve başlığa Firefox eklediğimizden emin oluruz, böylece web sitesi ona bir kod parçasından eriştiğimizi izleyemez. Bu bölüm, çoğu web sitesi kazıyıcıları engellediğinden ve başlığı kaçırırsanız önemlidir. IP'niz büyük olasılıkla engellenecek ve size karşı başka işlemler başlatılabilir.

İçeriği Sil

Kazıma Quora

Web sayfasını HTML formatında elde ettikten ve bir değişkende sakladıktan sonra. Verileri ayrıştırmayı ve ayıklamayı daha kolay hale getirmek için onu bir BeautifulSoup nesnesine dönüştürmemiz gerekiyor. Ardından, web sayfasındaki soruyu sayfadaki ilk "başlık" etiketinden çıkarın. Tüm başlıklar aşağıdaki dizeyle geldiğinden “ – Quora” yı kaldırmamız gerekiyor. Cevabı kazımak biraz daha karmaşıktır. "type" değerine sahip "script" türündeki öğede depolanan JSON'u "application/ld+json" olarak çıkarmanız gerekir. Bu JSON'u edindikten sonra, birden çok alan içeren bir yanıt listesi bulacaksınız. Her cevap için birkaç alan verilirken. En önemlilerini çıkardık:

  • Cevabın yazıldığı tarih
  • cevabın kendisi
  • Aldığı olumlu oy sayısı

Veri çıkarma işlemi tamamlandıktan sonra, onu bir yanıt listesine ekleyebilir ve son listeyi bir JSON dosyasına kaydedebiliriz.

Çıktıyı Anlamak

Aşağıda verilen JSON dosyası, son bölümde bahsedilen soru ile kodu çalıştırdığımızda HTML sayfasından sıyırdığımız cevapların bir kısmını içermektedir. Gördüğünüz gibi, JSON'da soru ve cevaplar olmak üzere iki alan var. Her cevap daha önce bahsettiğimiz üç parametreden oluşur. Bu özel soru için kazınan cevapların sayısı çoktu. Aşağıda bunlardan sadece birkaçını gösterdik. Kodu kendiniz çalıştırmaktan çekinmeyin ve bu sorunun veya diğer soruların tüm yanıtlarını kontrol edin.

İçerik

Quora'dan İçeriği Kazımanın Sınırlamaları

Bu, Quora'daki herhangi bir sorunun yanıtını bulmak için mükemmel bir çözüm gibi görünse de. Kendin Yap kodunun diğer her parçası gibi, birden çok sınırlama ile birlikte gelir. Önemli bir husus, yazdığınız her sorunun Quora'da bulunmayacağıdır. Var olmayan bir soruyu her yazdığınızda kodunuz bozulur. Aynı zamanda, hangi sürümün mevcut olduğunu bulmak için sorunuzu birden çok kez yazmanız gerekebilir. En yakın girdiğiniz soruyla eşleşen soruyu bulmak daha iyi bir uygulama olacaktır.

Dikkate alınması gereken bir diğer husus, Quora verilerini kazıma ve onu nasıl kullanmayı seçtiğinizle ilgili niteliklerdir. Robot.txt dosyasını incelediğinizden ve verileri sıyırdığınızdan emin olmanız ve buna göre kullanmanız gerekir. Bu kodun herhangi bir ticari kullanımı sizi yasal sorunlara yol açabilir. Ve toplanan verilerin araştırma amacı dışında kullanılması da sorunlara neden olabilir.

Özetle

Sosyal medya, kullanıcı tarafından oluşturulan veriler için bir altın madenidir. Quora Soru-Cevaplarını kazımak, müşterilerinizin acı noktalarına, kitlenizin beğenilerine/beğenmemelerine/ilgi alanlarına erişmek gibidir. Akıllı bir kazıma aracı kullanmak, Quora verilerini kazımakla ilgili tüm sıkıntılarınızı ortadan kaldırır. Verilerinizi çıkardıktan sonra, sinir ağları tarafından desteklenen makine öğrenimi algoritmalarını çalıştırabilir ve iş açısından kritik bilgiler elde edebilirsiniz.