การใช้ Web Scraping สำหรับวารสารศาสตร์เชิงสืบสวน

เผยแพร่แล้ว: 2016-09-09

ในฐานะที่เป็นเครื่องมือสร้างข้อมูลและข้อมูลเชิงลึกอันมีค่า การขูดเว็บได้เพิ่มมูลค่ามหาศาลให้กับธุรกิจจำนวนมากในกลุ่มอุตสาหกรรมต่างๆ ตั้งแต่การดูแลสุขภาพไปจนถึงยานยนต์ และวิทยาศาสตร์เพื่อชีวิตไปจนถึงหน่วยงานของรัฐ ไม่มีแนวใดที่ยังไม่ถูกแตะต้องจากอิทธิพลและผลกระทบของ การขูดเว็บ อย่างไรก็ตาม สิ่งที่น่าสนใจที่ควรทราบคือวิธีการใช้การขูดเว็บและการดึงข้อมูลสำหรับแอปพลิเคชันรูปแบบใหม่กว่า แนวทางหนึ่งที่น่าตื่นเต้นในการใช้วิธีการทางวิทยาศาสตร์ในการดึงข้อมูลคือด้านวารสารศาสตร์เชิงสืบสวน

วารสารศาสตร์เชิงสืบสวนคืออะไร?

วารสารศาสตร์เชิงสืบสวนเป็นส่วนสำคัญของการรายงานข้อเท็จจริง เป็นสาขาที่นักข่าวจะสอบสวนอย่างลึกซึ้งในหัวข้อเดียว โดยเฉพาะเรื่องที่เกี่ยวข้องกับกฎหมายและระเบียบหรือกิจกรรมที่มีลักษณะทางอาญา สิ่งที่น่าสนใจที่ควรทราบคือจำนวนความพยายามและเวลาที่นักข่าวจะใช้ในหัวข้อเดียวนี้ การสอบสวนอาจใช้เวลาหลายสัปดาห์ เดือน หรือหลายปีกว่าจะได้ผลลัพธ์ที่ต้องการ หลังจากการค้นคว้าและเตรียมรายงานการสอบสวนโดยละเอียด

การใช้ Web Scraping สำหรับวารสารศาสตร์เชิงสืบสวน

แง่มุมที่สำคัญของการทำข่าวเชิงสืบสวนคือการวิจัย และนี่คือจุดที่การขุดข้อมูลคุณภาพสูงช่วยปรับปรุงคุณภาพโดยรวมของการรายงานขั้นสุดท้าย เนื่องจากข้อมูลส่วนใหญ่ที่จะค้นคว้าถูกซ่อนไว้หรือมองไม่เห็นในมุมมองธรรมดา นักข่าวจึงต้องใช้ความพยายามอย่างมากในการลอกชั้นของสิ่งที่ได้รับให้กับเขา/เธอเพื่อเปิดเผยข้อเท็จจริงที่ถูกต้อง แม้ว่าข้อมูลจำนวนมากจะดูได้จากข่าวประชาสัมพันธ์ ความคิดเห็น งานแถลงข่าว และประกาศขององค์กร นักข่าวสายสืบสวนตัวจริงจะไม่พึ่งพาข้อเท็จจริงเหล่านี้เพียงอย่างเดียว เขา/เธอจะขุดลึกลงไปเพื่อค้นหาความจริงอันมืดมนที่ซ่อนอยู่เบื้องหลังภาพสีดอกกุหลาบส่วนใหญ่ที่นำเสนอต่อสาธารณชนทั่วไป เขา/เธอจะใช้การขุดข้อมูลเพื่อทำงานที่ยากลำบากนี้ให้สำเร็จ

นี่คือแกนหลักของการทำข่าวด้วยข้อมูล กล่าวคือ การเพิ่มพลังให้กับวารสารศาสตร์เชิงสืบสวนด้วยความช่วยเหลือของข้อมูล

วารสารศาสตร์ข้อมูลคืออะไร?

คำว่าวารสารศาสตร์ที่ขับเคลื่อนด้วยข้อมูลได้รับการประกาศเกียรติคุณในปี 2552 อย่างไรก็ตาม การใช้งานจริงนั้นมีความชราพอๆ กับแนวคิดของข้อมูล พบว่ามันยากที่จะเชื่อ? รายงาน เกี่ยวกับสภาพสงครามในช่วงสงคราม ที่กองทหารอังกฤษต้องเผชิญในปี 1858 แสดงให้เห็นว่าเรื่องราวถูกถักทอด้วยข้อเท็จจริงและข้อมูลที่สวยงามเพียงใดเพื่อนำเสนอภาพอันน่าดึงดูดใจซึ่งกระตุ้นการดำเนินการอย่างรวดเร็วจากผู้นำ และใช่ รายงานนี้มีอายุมากกว่า 150 ปีแล้ว!

เพื่อกำหนดข้อมูลวารสารศาสตร์ เป็นวิธีปฏิบัติด้านวารสารศาสตร์ที่ใช้ในยุคของการระเบิดข้อมูลในปัจจุบัน แนวปฏิบัตินี้เห็นนักข่าววิเคราะห์ข้อมูลและสร้างข้อมูลเชิงลึกจากชุดข้อมูลขนาดใหญ่ ผลลัพธ์ของการปฏิบัตินี้คือช่วยสร้างเรื่องราวข่าวที่เต็มไปด้วยข้อเท็จจริงซึ่งอาศัยข้อมูลมากกว่าคำบอกเล่า คุณอาจถามว่าทำไมการปฏิบัตินี้จึงรวบรวมกระแสมากในช่วงไม่กี่ครั้งในขณะที่การสร้างข่าวมีมานานหลายทศวรรษ คำตอบนั้นง่าย – ยุคปัจจุบันมีการสร้าง จัดเก็บ จัดการ และใช้ข้อมูลจำนวนมาก องค์ประกอบหลักที่ขับเคลื่อนการทำข่าวด้วยข้อมูล ได้แก่

  • ความพร้อมใช้งานของ เครื่องมือโอเพ่นซอร์ส ที่ช่วยลดต้นทุนของการวิเคราะห์ข้อมูลโดยใช้คอมพิวเตอร์และการสร้างข้อมูลเชิงลึก
  • การเข้าถึง ข้อมูลและเนื้อหาที่เผยแพร่แบบเปิดที่ช่วยขจัดข้อจำกัดในการเข้าถึง (เช่น ค่าธรรมเนียมการเข้าถึงหรือค่าธรรมเนียมการสมัครสมาชิก) หรือการใช้งาน (เช่น ข้อจำกัดด้านลิขสิทธิ์และสิทธิ์ใช้งาน)
  • แนวคิดของ ข้อมูลเปิด ที่ทำให้ข้อมูลส่วนใหญ่มีให้ใช้อย่างเสรีในช่องต่างๆ เช่น อินเทอร์เน็ตและการค้าหรือสิ่งพิมพ์ของรัฐบาล

การเข้าถึงข้อมูลแบบเปิดอย่างง่ายดายหมายความว่าการทำข่าวด้วยข้อมูลไม่จำเป็นต้องจำกัดอยู่เพียงนักวิทยาศาสตร์ข้อมูลมืออาชีพ ใครก็ตามที่มีความคุ้นเคยกับสเปรดชีตสามารถทำข่าวเชิงสืบสวนเพื่อค้นหาข้อเท็จจริงที่ซ่อนอยู่ได้ อย่างไรก็ตาม นี่ยังหมายความว่าการปฏิบัติควรมีกระบวนการที่กำหนดไว้อย่างดี เพื่อให้ผู้ใช้ในวงกว้างขึ้นไม่ลดประสิทธิภาพของการทำข่าวเชิงสืบสวน

วารสารศาสตร์ข้อมูล – ขั้นตอนสำคัญ

ตามที่กล่าวไว้ข้างต้น การทำข่าวด้วยข้อมูลจะต้องเป็นกระบวนการที่คิดมาอย่างดีซึ่งเกี่ยวข้องกับขั้นตอนสำคัญที่จำเป็นในการดำเนินการตามกระบวนการ ในระดับพื้นฐาน เวิร์กโฟลว์ระบุว่าข้อมูลต้องมาจากแหล่งที่มาหรือพบก่อน ซึ่งอาจเกี่ยวข้องกับการใช้เครื่องมือเช่น SQL จากนั้นจะต้องมีการวิเคราะห์ (ที่อาจต้องใช้คำศัพท์และศัพท์เฉพาะทางเทคนิค) โพสต์สิ่งนี้ ข้อมูลจะต้องแสดงเป็นภาพเพื่อนำเสนอข้อมูลที่รวบรวมในรูปแบบภาพเพื่อส่งเสริมการย่อยข้อมูลที่ดีขึ้น เมื่อพร้อมแล้ว ก็สามารถดาวน์โหลดไปยังผู้ชมที่ต้องการหรือผู้มีส่วนได้ส่วนเสียได้ นี่เป็นขั้นตอนสุดท้ายที่ข้อเท็จจริง รายงาน และแนวโน้มถูกนำเสนอต่อผู้ชมจำนวนมากขึ้นในรูปแบบของข่าว

การศึกษาที่มีชื่อเสียงที่สุดเกี่ยวกับเวิร์กโฟลว์ของการทำข่าวด้วยข้อมูลเผยแพร่ในปี 2011 โดย Paul Bradshaw มันสรุปหกขั้นตอนที่แตกต่างกันภายใต้ "ปิรามิดกลับด้านของการทำข่าวด้านข้อมูล" ลองดูเวิร์กโฟลว์ทั่วไปที่เกี่ยวข้องกับการทำข่าวด้วยข้อมูลในปิรามิดคว่ำนี้:

  1. ค้นหา: การจัดหาข้อมูลหรือข้อมูลออนไลน์
  2. ล้าง: เพิ่มตัวกรองและตรรกะเพื่อแปลงข้อมูล
  3. เห็นภาพ: ข้อมูลที่แปลงแล้วจะแสดงผลในรูปแบบของการอนุมาน แนวโน้ม สถิติหรือรูปแบบ ในรูปแบบของภาพคงที่หรือภาพเคลื่อนไหว
  4. เผยแพร่: การรวมภาพเข้าด้วยกันเพื่อสานเรื่องราวที่น่าสนใจ
  5. แจกจ่าย: แบ่งปันเรื่องราวผ่านช่องทางการจัดจำหน่ายต่างๆ เช่น อินเทอร์เน็ต โซเชียลมีเดีย สมาร์ทโฟน หรือแท็บเล็ต
  6. มาตรการ: ตรวจสอบการใช้เนื้อหาเพื่อดูแนวโน้มและประเภทของผู้ใช้ที่อ่านเนื้อหา

ตอนนี้เราจะสำรวจขั้นตอนเหล่านี้ในรายละเอียดที่ดีขึ้น

การค้นหาข้อมูล – การรวบรวมข้อมูลเป็นก้าวแรกสู่การทำข่าวเชิงสืบสวน ตั้งแต่การไปทัศนศึกษาเพื่อค้นหาสาเหตุที่แท้จริงของการกระทำผิดทางอาญาไปจนถึงการศึกษาผลกระทบของปัญหาระยะยาว มีหลายวิธีในการค้นหาข้อมูล ในการค้นหาข้อมูล คุณจะต้องระบุแหล่งที่มาที่ถูกต้องก่อน หากใครบางคนได้ตีพิมพ์เกี่ยวกับปัญหาที่กำลังดำเนินอยู่ซึ่งคุณกำลังตรวจสอบอยู่ คุณควรทำให้การวิจัยรองเป็นจุดเริ่มต้น อย่างไรก็ตาม หากคุณกำลังตรวจสอบบางสิ่งที่ละเอียดอ่อน คุณอาจต้องเลี่ยงองุ่นและข่าวลือ และทำการวิจัยที่เป็นกลางและเป็นกลางเพื่อค้นหาข้อมูล

ยกตัวอย่างงานวารสารศาสตร์เชิงสืบสวนที่เป็นประเด็นถกเถียงซึ่งดำเนินการโดย 'NH' ในปี 1821 (ใช่ เกือบ 200 ปีที่แล้ว!) แสดงรายชื่อนักเรียนที่ลงทะเบียนเรียนในโรงเรียนที่แมนเชสเตอร์และซอลฟอร์ดและค่าธรรมเนียมที่จ่ายโดยพวกเขา นักข่าวข้อมูลพยายามหาจำนวนที่ได้รับการศึกษาฟรีโดยใช้การขูดด้วยตนเอง แม้ว่าจะแสดงให้เห็นว่านักเรียนเกือบ 25,000 คนได้รับการศึกษาฟรี แต่บันทึกอย่างเป็นทางการระบุจำนวนไว้ที่เพียง 8,000 คน สิ่งนี้เผยให้เห็นข้อบกพร่องครั้งใหญ่ด้วยสถิติอย่างเป็นทางการที่รวบรวมโดยนักบวช (เสมียนป้อนข้อมูลในสมัยก่อน) นี่เป็นกรณีคลาสสิกในการค้นหาข้อมูลที่ทริกเกอร์การดำเนินการ

การล้างข้อมูล – โดยปกติ ข้อมูลจากแหล่งต่างๆ จะอยู่ในรูปแบบที่แตกต่างกัน จำเป็นต้องทำความสะอาดและทำให้เป็นมาตรฐานเพื่อความสะดวกในการวิเคราะห์ในอนาคต ตัวอย่างเช่น ในขณะที่ทำการดึงข้อมูลสำหรับน้ำหนักของเด็กอ้วน ข้อมูลในสหรัฐอเมริกาจะเป็นหน่วยกิโลกรัม ในขณะที่ข้อมูลในสหราชอาณาจักรจะเป็นหน่วยปอนด์ เพื่อความสะดวกในการวิเคราะห์ สิ่งเหล่านี้จะต้องได้รับการทำความสะอาดและทำให้สอดคล้องกับหน่วยวัดเดียว

การสร้างภาพข้อมูล – นี่คือลิงค์สำคัญที่ข้อมูลจะย้ายจากการเป็นเพียงตัวเลขไปจนถึงการแสดงภาพที่สามารถนำไปสู่การอนุมานได้อย่างรวดเร็ว เมื่อข้อมูลถูกวางลงบนสเปรดชีตในรูปแบบที่มีความหมาย ข้อมูลนั้นจะถูกส่งผ่านเครื่องมือสร้างภาพข้อมูล เช่น OpenRefine และ Tableau Public นี่ คือรายการเครื่องมือสร้างภาพข้อมูลฟรีที่คุณสามารถใช้ได้

การ เผยแพร่ – การใช้ระบบการจัดการเนื้อหา การแสดงภาพจะถูกเผยแพร่อย่างมีกลยุทธ์ โดยอิงจากจำนวนผู้อ่านที่คาดหวัง

การกระจายข้อมูล – ตลาดเนื้อหาเฉพาะทางให้การเข้าถึงการสร้างภาพข้อมูลเชิงสืบสวนนี้ คนอื่นๆ สามารถรับเรื่องราวข้อมูลและดำเนินการตรวจสอบตามช่องทางของตนเองผ่านช่องทางนี้

การประเมินผลกระทบของวารสารศาสตร์เชิงสืบสวน – ประเด็นทั้งหมดของการทำข่าวเชิงสืบสวนเชิงลึกคือการสร้างผลกระทบอย่างลึกซึ้ง และคุณทราบได้อย่างไรว่าเรื่องราวของคุณสร้างผลกระทบหรือไม่? แน่นอนว่าด้วยเครื่องมือที่สร้างขึ้นมาโดยเฉพาะเพื่อติดตามผลกระทบของเรื่องราวข้อมูล

ที่จะออกจากระบบ

กรณีศึกษาจำนวนมากชี้ให้เห็นถึงผลกระทบมหาศาลที่เกิดจากการทำข่าวเชิงสืบสวนโดยใช้การดึงข้อมูล สิ่งที่เป็นที่รู้จักมากที่สุดคือการ เผยแพร่ข้อมูลหน่วยงานราชการลับของ WikiLeaks วิธีที่ส่งผลกระทบต่อนโยบายสาธารณะและสวัสดิการในระดับสูงสุดในประเทศต่างๆ เช่น สหรัฐอเมริกา บ่งบอกถึงอิทธิพลเชิงลึกของวารสารศาสตร์เชิงสืบสวน

วันนี้ไม่เพียงพอต่อการรวบรวมข้อมูลและรับข้อมูลเชิงลึกอีกต่อไป ข้อมูลเชิงลึกต้องได้รับการสนับสนุนโดยการสร้างภาพที่สร้างสรรค์ แต่ที่สำคัญกว่านั้น จะต้องได้รับการสนับสนุนจากเรื่องราวที่มั่นคงซึ่งสร้างขึ้นเพื่อสนับสนุนมุมมองของคุณ การทำข่าวด้วยข้อมูลด้วยความช่วยเหลือของการดึงข้อมูลถูกมองว่าเป็นเครื่องมือสร้างข้อมูลเชิงลึกที่สำคัญมากขึ้นและกำลังกลายเป็นเครื่องช่วยที่เชื่อถือได้สำหรับการสร้างภาพข้อมูลและการรายงานเรื่องราวข่าวที่ได้รับการสนับสนุนจากข้อมูล

คอยติดตามบทความถัดไปของเราเกี่ยวกับการกำหนดราคาผลิตภัณฑ์ของคุณอย่างถูกต้อง

วางแผนที่จะรับข้อมูลจากเว็บหรือไม่? เราอยู่ที่นี่เพื่อช่วย แจ้งให้เราทราบ เกี่ยวกับความต้องการของคุณ