Araştırmacı Gazetecilik için Web Scraping'i Kullanma
Yayınlanan: 2016-09-09Değerli bir veri ve bilgi üretme aracı olarak web kazıma, farklı endüstri sektörlerinde birçok işletmeye büyük değer kattı. Sağlıktan otomotive ve yaşam bilimlerinden devlet kurumlarına kadar, web kazımanın etkisinden ve etkisinden etkilenmeyen hiçbir sektör yoktur . Bununla birlikte, dikkat edilmesi gereken ilginç olan şey, web kazıma ve veri çıkarmanın daha yeni uygulama biçimleri için kullanılma şeklidir. Bilimsel veri çıkarma yöntemlerini uygulamanın böyle heyecan verici bir yolu, araştırmacı gazetecilik alanıdır.
Araştırmacı gazetecilik nedir?
Araştırmacı gazetecilik, gerçekleri bildirmenin çok önemli bir parçasıdır. Gazetecinin bir konuyu, özellikle yasa ve düzen veya doğası gereği suç olan faaliyetlerle ilgili olanları derinlemesine araştıracağı alandır. Dikkat çekici olan şey, bir gazetecinin tek bir konu üzerinde harcayacağı çaba ve zamanın miktarıdır. Araştırma ve ayrıntılı bir soruşturma raporu hazırladıktan sonra, soruşturmanın istenen sonucu vermesi haftalar, aylar hatta yıllar alabilir.

Araştırmacı gazeteciliğin çok önemli bir yönü araştırmadır ve bu, yüksek kaliteli veri madenciliğinin nihai raporlamanın genel kalitesini iyileştirmeye yardımcı olduğu yerdir. Araştırılacak verilerin çoğu gizli olduğundan veya düz görünümde görünmediğinden, bir gazetecinin doğru gerçekleri ortaya çıkarmak için kendisine sağlananların katman katman sıyrılması çok çaba gerektirir. Basın bültenleri, yorumlar, basın toplantıları ve kurumsal duyurular yoluyla önemli miktarda veri mevcut olsa da, gerçek bir mavi araştırmacı gazeteci sadece bu gerçeklere güvenmeyecektir. Halka sunulan çoğunlukla pembe olan resmin ardındaki karanlık gerçekleri ortaya çıkarmak için daha derine inecektir. Bu zor görevi başarmak için veri madenciliğini kullanacak.
Bu tam olarak veri gazeteciliğinin belkemiğidir – yani araştırmacı gazeteciliği verilerin yardımıyla güçlendirmek.
Veri gazeteciliği nedir?
Veriye dayalı gazetecilik terimi 2009 yılında ortaya çıktı. Ancak pratik uygulaması veri kavramının kendisi kadar eskidir. İnanmak zor mu? İngiliz birliklerinin 1858'de yüzleşmek zorunda kaldığı savaş zamanı koşullarına ilişkin rapor, liderlerin derhal harekete geçmesini sağlayan zorlayıcı bir görselleştirme sunmak için gerçekler ve veriler etrafında bir hikayenin ne kadar güzel bir şekilde örüldüğünü gösteriyor. Ve evet – rapor 150 yıldan daha eski!
Veri gazeteciliğini tanımlamak için, günümüzün veri patlaması çağında kullanılan gazetecilik pratiğidir. Uygulama, verileri analiz eden ve devasa veri kümelerinden içgörüler üreten bir gazeteci görür. Bu uygulamanın sonucu, kulaktan dolma bilgilerden ziyade verilere dayanan gerçeklerle dolu bir haber hikayesi oluşturmaya yardımcı olmaktır. Haber oluşturmak onlarca yıldır varken, bu uygulamanın son zamanlarda neden bu kadar çok güç topladığını sorabilirsiniz. Cevap basit – günümüz çağında çok sayıda verinin üretildiği, saklandığı, derlendiği ve tüketildiği görülüyor. Veri gazeteciliğini yönlendiren ana bileşenler şunları içerir:
- Bilgisayar tabanlı veri analizi ve içgörü oluşturma maliyetini düşüren açık kaynak araçlarının mevcudiyeti
- Erişim üzerindeki kısıtlamaların (örn. erişim ücretleri veya abonelik ücretleri) veya kullanımına ilişkin kısıtlamaların (örn. telif hakkı ve lisans kısıtlamaları) kaldırılmasına yardımcı olan verilere ve yayınlanmış içeriğe açık erişim
- Verilerin çoğunu İnternet ve ticaret veya devlet yayınları gibi kanallarda ücretsiz olarak sunan açık veri kavramı .
Açık verilere kolay erişim, veri gazeteciliğinin profesyonel veri bilimcileriyle sınırlı kalması gerekmediği anlamına gelir. Bir elektronik tabloya aşina olan herkes, gizli gerçekleri ortaya çıkarmak için araştırmacı gazetecilik yapabilir. Bununla birlikte, bu aynı zamanda, kullanıcıların daha geniş bir alana yayılmasının araştırmacı gazeteciliğin etkinliğini azaltmaması için uygulamanın iyi tanımlanmış bir sürece sahip olması gerektiği anlamına gelir.
Veri gazeteciliği – Temel adımlar
Yukarıda tartışıldığı gibi, veri gazeteciliği, süreci yürütmek için gerekli olan temel adımları içeren iyi düşünülmüş bir süreç olmalıdır. Çok temel düzeyde, iş akışı, bilginin önce kaynaklanması veya bulunması (veya bulunduktan sonra anlamlandırılması) gerektiğini belirtir. Bu, SQL gibi araçların kullanımını içerebilir. Daha sonra analiz edilmelidir (bu, terminolojilerin ve teknik jargonun doğru anlaşılmasını gerektirebilir). Bunu yayınlayın, verilerin daha iyi sindirilmesini sağlamak için toplanan bilgileri resimli bir biçimde sunmak için veriler görselleştirilmelidir. Bu hazır olduğunda, gerekli hedef kitleye veya paydaşlara indirilebilir. Bu, gerçeklerin, raporların ve eğilimlerin bir haber şeklinde daha geniş bir kitleye sunulduğu son aşamadır.

Veri gazeteciliğinin iş akışı üzerine en iyi bilinen çalışma 2011 yılında Paul Bradshaw tarafından yayınlandı . “Ters çevrilmiş bir veri gazeteciliği piramidi” altında altı farklı aşamayı özetledi. Bu ters çevrilmiş piramitte veri gazeteciliğini içeren tipik bir iş akışına bakalım:
- Bul: Bilgi veya verileri çevrimiçi olarak sağlama
- Temiz: Verileri dönüştürmek için filtreler ve mantık ekleyin
- Görselleştirin: Dönüştürülen veriler daha sonra sonuçları statik veya hareketli bir görsel biçiminde çıkarım, eğilimler, istatistikler veya kalıplar biçiminde gösterir.
- Yayınlayın: İlgi çekici bir hikaye oluşturmak için görselleri bir araya getirin
- Dağıt: Hikayeyi İnternet, sosyal medya, akıllı telefonlar veya tabletler gibi çeşitli dağıtım kanallarında paylaşmak
- Ölçüm: Trendleri ve onu okuyan kullanıcı türlerini görüntülemek için içeriğin tüketimini izleyin.
Şimdi bu adımları daha ayrıntılı olarak inceleyeceğiz
Veri bulma – Veri toplamak, araştırmacı gazeteciliğin ilk adımıdır. Saha gezileri yapmaktan, suç teşkil eden suistimalin gerçek nedenini bulmaya ve uzun vadeli bir sorunun etkisini araştırmaya kadar, veri bulmanın birçok yolu vardır. Verileri bulmak için öncelikle doğru kaynakları belirlemeniz gerekecektir. Araştırmakta olduğunuz devam eden bir konu hakkında birileri zaten yayınlamışsa, ikincil araştırmayı bir başlangıç noktası yapmak mantıklıdır. Bununla birlikte, hassas bir şeyi araştırıyorsanız, o zaman dedikoduları ve söylentileri atlamanız ve verileri bulmak için kendi tarafsız ve önyargısız araştırmanızı yapmanız gerekebilir.
1821'de belirli bir 'NH' tarafından yürütülen tartışmalı araştırmacı gazetecilik çalışmasını örnek alın (evet, neredeyse 200 yıl önce!). Manchester ve Salford'daki okullara kayıtlı öğrencilerin bir listesini ve onlar tarafından ödenen ücretleri gösterdi. Veri gazetecisi, manuel kazıma kullanarak, kaç kişinin ücretsiz eğitim aldığını bulmaya çalıştı. Yaklaşık 25.000 öğrencinin ücretsiz eğitim aldığını gösterirken, resmi kayıtlar sayıyı sadece 8000 olarak belirledi. Bu, din adamları (eski günlerin veri giriş memurları) tarafından toplanan resmi istatistiklerle ilgili büyük bir kusuru ortaya çıkardı. Bu, eylemi tetikleyen klasik bir veri bulma durumuydu.
Veri temizleme – Genellikle, farklı kaynaklardan gelen veriler farklı biçimlerde olacaktır. Bu, gelecekteki analizlerin kolaylığı için temizlenmeli ve normalleştirilmelidir. Örneğin, obez çocuklar arasında ağırlık için veri çıkarımı yapılırken ABD verileri Kilogram, İngiltere verileri Pound cinsinden olacaktır. Analiz kolaylığı için bunların temizlenmesi ve tek bir ölçüm birimiyle tutarlı hale getirilmesi gerekecektir.
Veri görselleştirme – Bu, verilerin yalnızca sayılardan hızlı çıkarımlara yol açabilecek görsel bir temsile geçtiği önemli bir bağlantıdır. Veriler, hesap tablolarına anlamlı bir biçimde yerleştirildikten sonra, OpenRefine ve Tableau Public gibi veri görselleştirme araçlarından geçirilir. İşte size sunulan ücretsiz veri görselleştirme araçlarının bir listesi.
Yayınlama – Bir İçerik Yönetim Sistemi kullanılarak görselleştirme, beklenen okuyucu kitlesine dayalı olarak stratejik olarak yayınlanır.
Veri dağıtımı – Özel içerik pazaryerleri, bu araştırmacı görselleştirmeye erişim sağlar. Bu kanal aracılığıyla, başkaları veri öykülerini alabilir ve kendi araştırmalarına devam edebilir.
Araştırmacı gazeteciliğin etkisinin değerlendirilmesi – Derinlemesine araştırmacı gazetecilik yapmanın tüm amacı, derin bir etki yaratmaktır. Ve hikayenizin bir etki yaratıp yaratmadığını nasıl anlarsınız? Tabii ki, özellikle veri öykülerinin etkisini izlemek için oluşturulan araçlarla.
Oturumu kapatmak için
Birçok vaka çalışması, veri çıkarımı kullanan araştırmacı gazeteciliğin yarattığı muazzam etkiye işaret ediyor. Bunların en bilineni, sınıflandırılmış devlet kurumları verilerinin WikiLeaks yayınıdır. ABD gibi ülkelerde kamu ve refah politikalarını en üst düzeyde etkileme şekli, araştırmacı gazeteciliğin derin etkisinden çokça bahsediyor.
Bugün artık veri toplamak ve içgörü elde etmek yeterli değil. İçgörünün yaratıcı bir görselleştirmeyle desteklenmesi gerekir, ancak bundan daha da önemlisi, bakış açınızı desteklemek için oluşturulmuş sağlam bir hikayeyle desteklenmesi gerekir. Veri kazıma yardımı ile veri gazeteciliği, giderek daha önemli bir içgörü oluşturma aracı olarak görülüyor ve veri görselleştirme ve veri destekli haber hikayeleri için güvenilir bir yardımcı haline geliyor.
Ürünlerinizi doğru fiyatlandırmayla ilgili bir sonraki makalemiz için bizi izlemeye devam edin.
Web'den veri almayı mı planlıyorsunuz? Yardım etmek için buradayız. Gereksinimleriniz hakkında bize bilgi verin.
