Menggunakan Scraping Web untuk Jurnalisme Investigasi

Diterbitkan: 2016-09-09

Sebagai alat penghasil data dan wawasan yang berharga, pengikisan web telah menambah nilai luar biasa bagi banyak bisnis di berbagai vertikal industri. Mulai dari perawatan kesehatan hingga otomotif, dan ilmu kehidupan hingga instansi pemerintah, tidak ada vertikal yang tetap tak tersentuh dari pengaruh dan dampak pengikisan web. Namun, yang menarik untuk diperhatikan adalah cara web scraping dan ekstraksi data digunakan untuk bentuk aplikasi yang lebih baru. Salah satu cara yang menarik untuk menerapkan metode ilmiah ekstraksi data adalah di bidang jurnalisme investigasi.

Apa itu jurnalisme investigasi?

Jurnalisme investigasi adalah bagian penting dari pelaporan fakta. Ini adalah bidang di mana jurnalis akan menyelidiki secara mendalam satu topik, terutama yang terkait dengan hukum dan ketertiban atau kegiatan yang bersifat kriminal. Yang menarik untuk dicatat adalah jumlah upaya dan waktu yang akan dihabiskan seorang jurnalis untuk satu topik ini. Penyelidikan dapat memakan waktu berminggu-minggu, berbulan-bulan, atau bahkan bertahun-tahun, untuk menghasilkan hasil yang diinginkan, setelah meneliti dan menyiapkan laporan penyelidikan yang terperinci.

Menggunakan Scraping Web untuk Jurnalisme Investigasi

Aspek penting dari jurnalisme investigasi adalah penelitian dan di sinilah penambangan data berkualitas tinggi membantu meningkatkan kualitas keseluruhan pelaporan akhir. Karena sebagian besar data yang akan diteliti tersembunyi atau tidak terlihat secara kasat mata, maka dibutuhkan usaha keras seorang jurnalis untuk mengupas lapis demi lapis dari apa yang diberikan kepadanya untuk mengungkap fakta yang benar. Sementara banyak data tersedia melalui siaran pers, komentar, konferensi pers, dan pengumuman perusahaan, seorang jurnalis investigasi biru sejati tidak akan hanya mengandalkan fakta-fakta ini. Dia akan menggali lebih dalam untuk mengungkap kebenaran gelap yang tersembunyi di balik gambar yang sebagian besar cerah yang disajikan kepada masyarakat umum. Dia akan menggunakan penambangan data untuk menyelesaikan tugas yang sulit ini.

Inilah tulang punggung jurnalisme data – yaitu memperkuat jurnalisme investigasi dengan bantuan data.

Apa itu jurnalisme data?

Istilah jurnalisme berbasis data diciptakan pada tahun 2009. Namun, penerapan praktisnya sama tuanya dengan konsep data itu sendiri. Merasa sulit untuk percaya? Laporan tentang kondisi masa perang yang harus dihadapi pasukan Inggris pada tahun 1858 menunjukkan betapa indahnya sebuah cerita dijalin di sekitar fakta dan data untuk menghadirkan visualisasi yang menarik yang memunculkan tindakan cepat dari para pemimpin. Dan ya – laporannya berusia lebih dari 150 tahun!

Untuk mendefinisikan jurnalisme data, ini adalah praktik jurnalistik yang digunakan di era ledakan data saat ini. Praktiknya melihat seorang jurnalis menganalisis data dan menghasilkan wawasan dari kumpulan data yang sangat besar. Hasil dari praktik ini adalah membantu menciptakan berita yang dipenuhi fakta yang mengandalkan data daripada desas-desus. Anda mungkin bertanya mengapa praktik ini mengumpulkan begitu banyak tenaga belakangan ini sementara membuat berita telah ada selama beberapa dekade. Jawabannya sederhana – zaman sekarang banyak data yang dihasilkan, disimpan, dikuratori, dan dikonsumsi. Komponen utama yang mendorong jurnalisme data meliputi

  • Ketersediaan alat sumber terbuka yang menurunkan biaya analisis data berbasis komputer dan pembuatan wawasan
  • Akses terbuka ke data dan konten yang dipublikasikan yang telah membantu menghilangkan pembatasan akses (misalnya biaya akses atau biaya berlangganan) atau penggunaannya (misalnya pembatasan hak cipta dan lisensi)
  • Konsep data terbuka yang membuat sebagian besar data tersedia secara bebas di saluran seperti Internet dan perdagangan atau publikasi pemerintah.

Akses yang mudah untuk membuka data berarti bahwa jurnalisme data tidak perlu dibatasi oleh ilmuwan data profesional. Siapa pun yang terbiasa dengan spreadsheet dapat melakukan jurnalisme investigasi untuk mengungkap fakta tersembunyi. Namun, ini juga berarti bahwa praktik tersebut harus memiliki proses yang terdefinisi dengan baik sehingga penyebaran pengguna yang lebih luas tidak mengurangi kemanjuran jurnalisme investigasi.

Jurnalisme data – Langkah-langkah kunci

Seperti dibahas di atas, jurnalisme data perlu menjadi proses yang dipikirkan dengan matang yang melibatkan langkah-langkah kunci penting untuk menjalankan proses tersebut. Pada tingkat yang sangat dasar, alur kerja menyatakan bahwa informasi pertama-tama harus bersumber atau ditemukan (atau dipahami setelah ditemukan). Ini mungkin melibatkan penggunaan alat seperti SQL. Itu kemudian harus dianalisis (yang mungkin memerlukan terminologi dan jargon teknis yang benar). Posting ini, data harus divisualisasikan untuk menyajikan informasi yang dikumpulkan dalam format bergambar untuk mempromosikan pencernaan data yang lebih baik. Setelah ini siap, itu dapat diunduh ke audiens atau pemangku kepentingan yang diperlukan. Ini adalah tahap terakhir di mana fakta, laporan, dan tren dibawa ke depan khalayak yang lebih besar dalam bentuk berita.

Studi paling terkenal tentang alur kerja jurnalisme data dirilis pada 2011 oleh Paul Bradshaw . Ini menguraikan enam fase berbeda di bawah "piramida jurnalisme data terbalik". Mari kita lihat alur kerja tipikal yang melibatkan jurnalisme data dalam piramida terbalik ini:

  1. Temukan: Sumber informasi atau data online
  2. Bersih: Tambahkan filter dan logika untuk mengubah data
  3. Visualisasikan: Data yang ditransformasi kemudian menampilkan hasil dalam bentuk inferensi, tren, statistik atau pola, dalam bentuk visual statis atau animasi
  4. Publikasikan: Menggabungkan visual, untuk menenun cerita yang menarik
  5. Distribusikan: Berbagi cerita di berbagai saluran distribusi seperti Internet, media sosial, smartphone, atau tablet
  6. Ukur: Pantau konsumsi konten untuk melihat tren dan tipe pengguna yang membacanya.

Kami sekarang akan menjelajahi langkah-langkah ini secara lebih rinci

Menemukan data – Mengumpulkan data adalah langkah pertama menuju jurnalisme investigasi. Mulai dari melakukan kunjungan lapangan untuk mencari tahu penyebab sebenarnya dari tindak pidana untuk mempelajari dampak dari masalah jangka panjang, ada banyak cara untuk mencari data. Untuk menemukan data, Anda harus terlebih dahulu menentukan sumber yang tepat. Jika seseorang telah menerbitkan tentang masalah yang sedang berlangsung yang kebetulan sedang Anda selidiki, maka masuk akal untuk menjadikan penelitian sekunder sebagai titik awal. Namun, jika Anda sedang menyelidiki sesuatu yang sensitif, maka Anda mungkin perlu mengabaikan selentingan dan rumor dan melakukan penelitian Anda sendiri yang tidak memihak dan tidak memihak untuk menemukan data.

Ambil contoh karya jurnalisme investigasi kontroversial yang dilakukan oleh 'NH' tertentu pada tahun 1821 (ya, hampir 200 tahun yang lalu!). Itu menunjukkan daftar siswa yang terdaftar di sekolah di Manchester dan Salford dan biaya yang dibayarkan oleh mereka. Dengan menggunakan scraping manual, jurnalis data mencoba mencari tahu berapa banyak yang menerima pendidikan gratis. Meskipun menunjukkan hampir 25.000 siswa menerima pendidikan gratis, catatan resmi mematok jumlahnya hanya 8000. Ini mengungkap cacat besar dengan statistik resmi yang dikumpulkan oleh pendeta (panitera entri data masa lalu). Ini adalah kasus klasik dalam menemukan data yang memicu tindakan.

Pembersihan data – Biasanya, data dari sumber yang berbeda akan memiliki format yang berbeda. Ini perlu dibersihkan dan dinormalisasi untuk kemudahan analisis di masa mendatang. Misalnya, saat melakukan ekstraksi data untuk berat badan di antara anak-anak obesitas, data AS akan dalam Kilogram, sedangkan data Inggris akan dalam Pound. Untuk memudahkan analisis, ini perlu dibersihkan dan dibuat konsisten untuk satu unit pengukuran.

Visualisasi data – Ini adalah tautan penting di mana data bergerak dari sekadar angka ke representasi visual yang dapat menghasilkan kesimpulan cepat. Setelah data dimasukkan ke dalam spreadsheet dalam format yang berarti, data tersebut akan diteruskan melalui alat visualisasi data seperti OpenRefine dan Tableau Public. Berikut adalah daftar alat visualisasi data gratis yang tersedia untuk Anda.

Penerbitan – Menggunakan Sistem Manajemen Konten, visualisasi dipublikasikan secara strategis, berdasarkan jumlah pembaca yang diharapkan.

Distribusi data – Pasar konten khusus menyediakan akses ke visualisasi investigasi ini. Melalui saluran ini, orang lain dapat mengambil cerita data dan melakukan penyelidikan mereka sendiri.

Mengevaluasi dampak jurnalisme investigasi – Inti dari melakukan jurnalisme investigasi mendalam adalah untuk menciptakan dampak yang mendalam. Dan bagaimana Anda tahu apakah cerita Anda menciptakan dampak? Tentu saja, dengan alat yang dibuat khusus untuk memantau dampak cerita data.

Untuk keluar

Banyak studi kasus menunjukkan dampak besar yang didorong oleh jurnalisme investigasi menggunakan ekstraksi data. Yang paling terkenal adalah publikasi WikiLeaks tentang data lembaga pemerintah rahasia. Cara itu memengaruhi kebijakan publik dan kesejahteraan di tingkat tertinggi di negara-negara seperti AS, menunjukkan banyak pengaruh mendalam dari jurnalisme investigasi.

Hari ini tidak lagi cukup untuk mengumpulkan data dan memperoleh wawasan. Wawasan perlu didukung oleh visualisasi yang kreatif, tetapi yang lebih penting dari itu, harus didukung oleh cerita yang solid yang dibuat untuk mendukung sudut pandang Anda. Jurnalisme data, dengan bantuan pengikisan data, semakin dipandang sebagai alat penghasil wawasan utama dan menjadi bantuan tepercaya untuk visualisasi data dan pelaporan berita yang didukung data.

Nantikan artikel kami berikutnya tentang menentukan harga produk Anda dengan benar.

Berencana untuk memperoleh data dari web? Kami di sini untuk membantu. Beri tahu kami tentang kebutuhan Anda.