คำแนะนำของคุณเกี่ยวกับ Web Scrape Quora Q&As

เผยแพร่แล้ว: 2022-02-17
สารบัญ แสดง
ใช้กรณีของ Quora Scraping
วิธีขูด Quora Q&A
ทำความเข้าใจกับผลลัพธ์
ข้อจำกัดในการคัดลอกเนื้อหาจาก Quora
สรุป

ไซต์ถาม & ตอบ เช่น Quora เป็นศูนย์กลางการขัดเกลาทางสังคมออนไลน์สำหรับพลเมืองดิจิทัลทั่วโลกเพื่อถาม ตอบ และอภิปรายปัญหา ข้อสงสัย และหัวข้อที่โดดเด่นที่สุด การดึงข้อมูลขนาดใหญ่จากแพลตฟอร์ม Q&A ออนไลน์เหล่านี้อาจเป็นประโยชน์ต่อนักการตลาดและนักวิทยาศาสตร์ด้านข้อมูล เนื่องจากไม่ได้เป็นเพียงเว็บไซต์ถามตอบในหลายภาษาเท่านั้น แต่ยังเป็นเครือข่ายสังคมออนไลน์ที่มีผู้มีอิทธิพลเฉพาะกลุ่มอีกด้วย มาเรียนรู้ในรายละเอียดเกี่ยวกับวิธีการขูด Quora

ใช้กรณีของ Quora Scraping

เพื่อเน้นว่าเหตุใดการขูด Quora จึงเป็นที่สนใจของนักการตลาดและธุรกิจ มาดู สถิติที่สำคัญ 4 ประการของ Quora กัน:

  • Quora มีผู้ใช้งาน 300 ล้านคนต่อเดือน
  • โดยเฉลี่ยผู้ใช้ใช้เวลา 4+ นาทีใน Quora ทุกวัน
  • จากปริมาณการเข้าชมเว็บไซต์ที่ได้รับความนิยมสูงสุดอันดับที่ 80 ของโลก
  • การค้นหาของ Google แสดงผลลัพธ์มากถึง 65 ล้านรายการสำหรับ Quora[dot]com

#1: การวิเคราะห์ความรู้สึก

คุณสามารถขูดคำถามที่เกี่ยวข้องกับการเมือง แบรนด์ ตลาดหุ้น ฯลฯ เพื่อทำการวิเคราะห์ความเชื่อมั่น

#2: NLP และการเรียนรู้ของเครื่อง

ผู้ใช้ส่วนใหญ่ใน Quora เป็นผู้ใช้จริงที่ถามคำถามและคำตอบบนแพลตฟอร์มโดยใช้ศัพท์แสงแบบวันต่อวัน ซึ่งอาจเป็นประโยชน์อย่างมากสำหรับการฝึกโมเดล ML และการประมวลผลภาษาธรรมชาติ (NLP)

#3: การตลาดอินฟลูเอนเซอร์อัจฉริยะ

Quora อนุญาตให้คุณแสดงโฆษณา แต่คุณยังสามารถกำหนดเป้าหมายผู้มีอิทธิพลในช่องเฉพาะเพื่อโปรโมตแบรนด์ของคุณได้ การแยกคำถาม โปรไฟล์ผู้ใช้ ฯลฯ จากช่องเฉพาะจะช่วยให้คุณร่วมมือกับผู้มีอิทธิพลที่เหมาะสมซึ่งมีอำนาจที่แท้จริงในการโปรโมตแบรนด์ของคุณ

#4: การสร้างลูกค้าเป้าหมายและการตลาดเนื้อหา

คำถามที่ผู้ใช้ถามสามารถช่วยคุณระบุว่าพวกเขาเป็นลูกค้าเป้าหมายของคุณหรือไม่ ตัวอย่างเช่น หากคุณเป็นบริษัทที่ให้บริการด้านไอที คนที่ถามคำถามเช่น "การพัฒนาเว็บไซต์อีคอมเมิร์ซมีค่าใช้จ่ายเท่าไร" เป็นผู้นำที่มีศักยภาพของคุณ ข้อมูลเชิงลึกที่ได้รับจากการขูด Quora Q&A อาจเป็นประตูสู่กลยุทธ์การตลาดเนื้อหาที่เป็นตัวเอกของคุณ

วิธีขูด Quora Q&A

เราจะใช้ Python3.7 และไลบรารี BeautifulSoup เพื่อรวบรวมข้อมูล Quora และบันทึกเป็นไฟล์ JSON เมื่อใช้รหัสนี้ คุณจะสามารถขูดและดึงคำตอบและคำถาม Quora ได้อย่างง่ายดาย สิ่งเดียวที่คุณจะต้องมีคือโปรแกรมแก้ไขข้อความที่ดี เราใช้ PyCharm ซึ่งเป็น IDE เต็มรูปแบบ แต่คุณยังสามารถใช้ Atom ได้ เนื่องจากมันมาพร้อมกับปลั๊กอินหลายตัวและมีน้ำหนักเบากว่า หวังว่านี่จะช่วยให้คุณเข้าใจวิธีการขูด Quora อย่างละเอียด

ดังนั้นเพื่อเริ่มต้นด้วยโค้ด เราเริ่มต้นด้วยการนำเข้าไลบรารีที่เราต้องการ ทั้งภายในและภายนอก เมื่อเสร็จแล้ว เราต้องตรวจสอบให้แน่ใจว่าเราได้ตั้งค่าโหมดการตรวจสอบของใบรับรอง SSL เป็น “CERT_NONE” และตรวจสอบชื่อโฮสต์เป็น False เพื่อหลีกเลี่ยงข้อผิดพลาดของใบรับรอง SSL เมื่อเราเริ่มดึงข้อมูล เมื่อดำเนินการเสร็จแล้ว การตั้งค่าของเราก็เสร็จสมบูรณ์ และเราสามารถรับคำถามจากผู้ใช้ได้ สำหรับการสาธิตนี้ เราได้ให้ค่าต่อไปนี้เมื่อถามคำถามนี้

Quora

เราสร้าง Quora URL โดยใช้คำถามนี้ จำเป็นต้องมีการจัดการสตริงนี้เนื่องจาก Quora จัดรูปแบบ URL ในลักษณะนี้

เมื่อเราสร้าง URL แล้ว เราจะใช้ฟังก์ชันคำขอ inbuilt จาก urllib เพื่อเข้าชมหน้าเว็บ และตรวจสอบให้แน่ใจว่าเราเพิ่ม Firefox ลงในส่วนหัว เพื่อไม่ให้เว็บไซต์ติดตามว่าเราเข้าถึงได้จากโค้ดบางส่วน ส่วนนี้มีความสำคัญเนื่องจากเว็บไซต์ส่วนใหญ่จะบล็อกเครื่องขูดและหากคุณพลาดส่วนหัว IP ของคุณน่าจะถูกบล็อก และสามารถดำเนินการเพิ่มเติมกับคุณได้

ขูดเนื้อหา

ขูด Quora

หลังจากที่เราได้รับหน้าเว็บในรูปแบบ HTML และจัดเก็บไว้ในตัวแปรแล้ว เราจำเป็นต้องแปลงเป็นวัตถุ BeautifulSoup เพื่อให้แยกวิเคราะห์และดึงข้อมูลได้ง่ายขึ้น จากนั้นดึงคำถามบนหน้าเว็บออกจากแท็ก "ชื่อ" แรกบนหน้า เราจำเป็นต้องลบ “ – Quora” ออกจากมันเนื่องจากชื่อทั้งหมดมาพร้อมกับสตริงต่อไปนี้ การขูดคำตอบนั้นซับซ้อนกว่าเล็กน้อย คุณต้องแยก JSON ที่เก็บไว้ในองค์ประกอบของประเภท "สคริปต์" ที่มีค่าสำหรับ "ประเภท" เป็น "application/ld+json" เมื่อคุณได้รับ JSON นี้แล้ว คุณจะพบรายการคำตอบที่มีหลายฟิลด์ ในขณะที่มีฟิลด์ไม่กี่ฟิลด์สำหรับแต่ละคำตอบ เราได้แยกสิ่งที่สำคัญที่สุด:

  • วันที่เขียนคำตอบ
  • คำตอบนั้นเอง
  • จำนวนโหวตที่ได้รับ

เมื่อการดึงข้อมูลเสร็จสิ้น เราสามารถผนวกเข้ากับรายการคำตอบและบันทึกรายการสุดท้ายในไฟล์ JSON

ทำความเข้าใจกับผลลัพธ์

ไฟล์ JSON ด้านล่างมีคำตอบบางส่วนที่คัดลอกมาจากหน้า HTML เมื่อเรารันโค้ดด้วยคำถามที่กล่าวถึงในส่วนที่แล้ว อย่างที่คุณเห็น JSON มีสองช่อง ได้แก่ คำถามและคำตอบ แต่ละคำตอบประกอบด้วยสามพารามิเตอร์ที่เรากล่าวถึงก่อนหน้านี้ ในขณะที่จำนวนคำตอบที่คัดลอกมาสำหรับคำถามนี้มีมากมาย เราได้แสดงเพียงไม่กี่รายการด้านล่าง อย่าลังเลที่จะรันโค้ดด้วยตัวคุณเอง และตรวจสอบคำตอบทั้งหมดสำหรับคำถามนี้ หรืออื่นๆ

เนื้อหา

ข้อจำกัดในการคัดลอกเนื้อหาจาก Quora

ขณะนี้อาจดูเหมือนเป็นโซลูชันที่สมบูรณ์แบบในการค้นหาคำตอบสำหรับคำถามใดๆ ใน Quora เช่นเดียวกับโค้ด DIY อื่นๆ มันมีข้อจำกัดหลายประการ สิ่งสำคัญประการหนึ่งคือไม่ใช่ทุกคำถามที่คุณพิมพ์จะมีอยู่ใน Quora คุณจะมีรหัสแตกทุกครั้งที่คุณพิมพ์คำถามที่ไม่มีอยู่จริง ในเวลา เดียวกัน คุณ อาจต้องพิมพ์คำถามของคุณหลายครั้งเพื่อค้นหาว่ามีเวอร์ชันใดอยู่ การใช้งานที่ดีกว่าคือการค้นหาคำถามที่ตรงกับคำถามที่คุณป้อนใกล้เคียงที่สุด

อีกแง่มุมหนึ่งที่ต้องพิจารณาคือข้อหนึ่งที่เกี่ยวข้องกับคุณสมบัติในการดึงข้อมูล Quora และวิธีที่คุณเลือกใช้งาน คุณต้องตรวจสอบให้แน่ใจว่าคุณได้อ่านไฟล์ robot.txt และขูดข้อมูล และใช้งานตามนั้น การใช้รหัสนี้ในเชิงพาณิชย์อาจนำคุณไปสู่ปัญหาทางกฎหมาย และการใช้ข้อมูลที่เก็บรวบรวมเพื่อวัตถุประสงค์อื่นนอกเหนือจากการวิจัยอาจทำให้เกิดปัญหาได้เช่นกัน

สรุป

โซเชียลมีเดียเป็นเหมืองทองคำสำหรับข้อมูลที่ผู้ใช้สร้างขึ้น การขูด Quora Q&A เหมือนกับการเข้าถึงจุดบอดของลูกค้าของคุณ การชอบ/ไม่ชอบ/ความสนใจของผู้ชมของคุณ การใช้เครื่องมือขูดอัจฉริยะขจัดความเจ็บปวดทั้งหมดที่เกี่ยวข้องกับ การขูดข้อมูล Quora เมื่อคุณดึงข้อมูลของคุณแล้ว คุณสามารถเรียกใช้อัลกอริธึม ML ที่ขับเคลื่อนด้วยโครงข่ายประสาทเทียมและรับข้อมูลเชิงลึกที่สำคัญต่อธุรกิจได้