دليلك إلى Web Scrape Quora Q & As

نشرت: 2022-02-17
عرض جدول المحتويات
استخدام حالات كشط Quora
كيفية كشط أسئلة وأجوبة Quora
فهم الناتج
حدود كشط المحتوى من Quora
في تلخيص

تعد مواقع الأسئلة والأجوبة مثل Quora بمثابة مراكز للتواصل الاجتماعي عبر الإنترنت للمواطنين الرقميين في جميع أنحاء العالم لطرح الأسئلة والإجابة عليها ومناقشة أبرز القضايا والشكوك والمواضيع. يمكن أن يكون استخراج البيانات واسعة النطاق من منصات الأسئلة والأجوبة عبر الإنترنت مفيدًا للمسوقين وعلماء البيانات على حدٍ سواء لأنه ليس فقط موقع أسئلة وأجوبة متعدد اللغات ولكنه أيضًا شبكة اجتماعية بحد ذاتها بها العديد من المؤثرين المتخصصين. دعونا نتعلم بالتفصيل كيفية كشط Quora.

استخدام حالات كشط Quora

للتأكيد على سبب أهمية إلغاء Quora للمسوقين والشركات ، دعنا نلقي نظرة سريعة على 4 إحصائيات حيوية لـ Quora :

  • Quora هي موطن لـ 300 مليون مستخدم نشط شهريًا.
  • في المتوسط ​​، يقضي المستخدمون أكثر من 4 دقائق على Quora كل يوم.
  • من حيث حجم حركة المرور ، فهو الموقع 80 الأكثر شعبية في العالم.
  • يعرض بحث Google ما يصل إلى 65 مليون نتيجة لـ Quora [dot] com.

رقم 1: تحليل المشاعر

يمكنك كشط الأسئلة المتعلقة بالسياسة والعلامات التجارية وسوق الأسهم وما إلى ذلك لإجراء تحليل للمشاعر.

# 2: البرمجة اللغوية العصبية والتعلم الآلي

معظم المستخدمين في Quora هم مستخدمون حقيقيون ، يطرحون أسئلة وأجوبة على النظام الأساسي بلغتهم اليومية. قد يكون هذا مفيدًا جدًا لتدريب نماذج تعلم الآلة ، ومعالجة اللغة الطبيعية (NLP).

# 3: التسويق المؤثر الذكي

يسمح لك Quora بتشغيل الإعلانات ولكن يمكنك أيضًا استهداف المؤثرين في مكانة معينة للترويج لعلامتك التجارية. من شأن تجريف الأسئلة وملفات تعريف المستخدمين وما إلى ذلك من مكانة محددة أن تتيح لك الشراكة مع المؤثرين المناسبين الذين يتمتعون بسلطة حقيقية للترويج لعلاماتك التجارية.

# 4: إنشاء قوائم العملاء المحتملين وتسويق المحتوى

يمكن أن تساعدك الأسئلة التي يطرحها المستخدمون على تحديد ما إذا كانوا العملاء المحتملين المستهدفين. على سبيل المثال ، إذا كنت شركة لخدمات تكنولوجيا المعلومات ، فإن الأشخاص الذين يطرحون أسئلة مثل "ما تكلفة تطوير موقع ويب للتجارة الإلكترونية؟" هي العملاء المحتملين. يمكن أن تكون الرؤى المكتسبة من إلغاء أسئلة وأجوبة Quora بوابتك إلى استراتيجية تسويق محتوى ممتاز.

كيفية كشط أسئلة وأجوبة Quora

سنستخدم Python3.7 ومكتبة BeautifulSoup للزحف إلى بيانات Quora وحفظها في ملف JSON. باستخدام هذا الرمز ، ستتمكن من كشط واستخراج إجابات وأسئلة Quora بسهولة. الشيء الآخر الوحيد الذي ستحتاجه هو محرر نصوص لائق. لقد استخدمنا PyCharm ، وهو IDE كامل النضج ، ولكن يمكنك أيضًا استخدام Atom لأنه يأتي مع مكونات إضافية متعددة وخفيف الوزن. آمل أن يساعدك هذا على فهم كيفية كشط Quora بالتفصيل.

لذا لنبدأ بالشفرة ، نبدأ باستيراد المكتبات التي سنحتاجها ، داخلية وخارجية. بمجرد الانتهاء من ذلك ، نحتاج إلى التأكد من أننا قمنا بتعيين وضع التحقق لشهادة SSL على "CERT_NONE" ، والتحقق من اسم المضيف إلى False ، لتجنب حدوث أخطاء في شهادة SSL عندما نبدأ في تجريف البيانات. بمجرد الانتهاء من ذلك ، يكتمل الإعداد لدينا ، ويمكننا قبول سؤال من المستخدم. بالنسبة لهذا العرض التوضيحي ، قمنا بتوفير القيمة التالية عندما تم طرح هذا السؤال.

كورا

نقوم بإنشاء عنوان URL الخاص بـ Quora باستخدام هذا السؤال. هذا التلاعب بالسلسلة مطلوب لأن Quora ينسق عناوين URL الخاصة به بهذه الطريقة.

بمجرد إنشاء عنوان URL ، نستخدم وظيفة الطلب المضمنة من urllib للوصول إلى صفحة الويب والتأكد من إضافة Firefox في العنوان ، حتى لا يتمكن موقع الويب من تتبع وصولنا إليه من جزء من التعليمات البرمجية. هذا الجزء مهم لأن معظم مواقع الويب تحظر برامج الكشط وإذا فاتتك العنوان. من المحتمل أن يتم حظر عنوان IP الخاص بك ، ويمكن اتخاذ المزيد من الإجراءات ضدك.

كشط المحتوى

كشط كورا

بعد أن حصلنا على صفحة الويب بتنسيق HTML وقمنا بتخزينها في متغير. نحتاج إلى تحويله إلى كائن BeautifulSoup بحيث يسهل تحليل البيانات واستخراجها منها. ثم استخرج السؤال الموجود على صفحة الويب من علامة "العنوان" الأولى على الصفحة. نحتاج إلى إزالة "- Quora" منه لأن جميع العناوين تأتي مع السلسلة التالية. تجريف الإجابة أكثر تعقيدًا بعض الشيء. تحتاج إلى استخراج JSON المخزن في عنصر النوع "script" الذي له قيمة "type" مثل "application / ld + json". بمجرد حصولك على JSON هذا ، ستجد قائمة بالإجابات ذات حقول متعددة. بينما يتم إعطاء عدد قليل من الحقول لكل إجابة. لقد استخرجنا أهمها:

  • تاريخ كتابة الجواب
  • الجواب نفسه
  • عدد الأصوات المؤيدة التي تلقتها

بمجرد اكتمال استخراج البيانات ، يمكننا إلحاقها بقائمة الإجابات وحفظ القائمة النهائية في ملف JSON.

فهم الناتج

يحتوي ملف JSON الوارد أدناه على بعض الإجابات التي تم حذفها من صفحة HTML عندما قمنا بتشغيل الكود مع السؤال المذكور في القسم الأخير. كما ترى ، يحتوي JSON على حقلين ، السؤال والإجابات. تتكون كل إجابة من العوامل الثلاثة التي ذكرناها سابقًا. في حين أن عدد الإجابات المقتطعة لهذا السؤال بالذات كان كثير. لقد أظهرنا القليل منهم فقط أدناه. لا تتردد في تشغيل الكود بنفسك والتحقق من جميع الإجابات على هذا السؤال أو أي سؤال آخر.

محتوى

حدود كشط المحتوى من Quora

في حين أن هذا قد يبدو حلاً مثاليًا للعثور على إجابات لأي سؤال في Quora. مثل كل جزء آخر من كود DIY ، فإنه يأتي مع قيود متعددة. أحد الجوانب المهمة هو أنه لن يكون كل سؤال تكتبه موجودًا في Quora. سيكون لديك رمز كسر في كل مرة تكتب سؤالاً غير موجود. في الوقت نفسه ، قد تحتاج إلى كتابة سؤالك عدة مرات للعثور على الإصدار الموجود. سيكون التنفيذ الأفضل هو العثور على السؤال الذي يطابق السؤال الذي أدخلته بشكل أقرب.

هناك جانب آخر يجب مراعاته وهو يتعلق بمضايقات كشط بيانات Quora وكيف تختار استخدامها. تحتاج إلى التأكد من مراجعة ملف robot.txt وكشط البيانات واستخدامها وفقًا لذلك. يمكن لأي استخدام تجاري لهذا الرمز أن يقودك إلى مشكلات قانونية. كما أن استخدام البيانات التي تم جمعها لأي شيء بخلاف الأغراض البحثية قد يتسبب أيضًا في حدوث مشكلات.

في تلخيص

وسائل التواصل الاجتماعي هي منجم ذهب للبيانات التي ينشئها المستخدمون. يشبه إلغاء أسئلة وأجوبة Quora الوصول إلى نقاط الألم لدى عملائك ، وإعجابات / عدم إعجاب / اهتمامات جمهورك. يؤدي استخدام أداة كشط ذكية إلى التخلص من كل آلامك المرتبطة بإلغاء بيانات Quora . بمجرد استخراج بياناتك ، يمكنك تشغيل خوارزميات ML المدعومة بالشبكات العصبية واكتساب رؤى مهمة للأعمال.