Einsatz von Web Scraping für investigativen Journalismus
Veröffentlicht: 2016-09-09Als wertvolles Tool zur Generierung von Daten und Erkenntnissen hat Web Scraping für viele Unternehmen in verschiedenen Branchen einen immensen Mehrwert geschaffen. Vom Gesundheitswesen über die Automobilindustrie und die Biowissenschaften bis hin zu Regierungsbehörden gibt es keine Branche, die vom Einfluss und den Auswirkungen von Web Scraping unberührt geblieben ist . Interessant ist jedoch die Art und Weise, wie Web Scraping und Datenextraktion für neuere Anwendungsformen verwendet werden. Eine dieser spannenden Möglichkeiten, die wissenschaftlichen Methoden der Datenextraktion anzuwenden, liegt im Bereich des investigativen Journalismus.
Was ist investigativer Journalismus?
Investigativer Journalismus ist ein wesentlicher Bestandteil der Faktenberichterstattung. Es ist der Bereich, in dem der Journalist ein Thema eingehend untersucht, insbesondere in Bezug auf Recht und Ordnung oder kriminelle Aktivitäten. Faszinierend ist, wie viel Aufwand und Zeit ein Journalist für dieses eine Thema aufwendet. Die Untersuchung kann nach Recherche und Erstellung eines detaillierten Untersuchungsberichts Wochen, Monate oder sogar Jahre dauern, bis sie das gewünschte Ergebnis liefert.

Ein entscheidender Aspekt des investigativen Journalismus ist die Recherche, und hier hilft hochwertiges Data Mining, die Gesamtqualität der Abschlussberichterstattung zu verbessern. Da die meisten zu recherchierenden Daten verborgen oder für die Öffentlichkeit nicht sichtbar sind, braucht ein Journalist viel Mühe, um Schicht für Schicht von dem abzuschälen, was ihm / ihr zur Verfügung gestellt wird, um die richtigen Fakten aufzudecken. Obwohl durch Pressemitteilungen, Kommentare, Pressekonferenzen und Unternehmensankündigungen beträchtliche Daten verfügbar sind, wird sich ein echter investigativer Journalist nicht nur auf diese Fakten verlassen. Er/Sie wird tiefer graben, um die dunklen Wahrheiten aufzudecken, die sich hinter dem meist rosigen Bild verbergen, das der breiten Öffentlichkeit präsentiert wird. Er/sie wird Data Mining verwenden, um diese schwierige Aufgabe zu erfüllen.
Genau das ist das Rückgrat des Datenjournalismus – nämlich den investigativen Journalismus mit Hilfe von Daten voranzutreiben.
Was ist Datenjournalismus?
Der Begriff des datengetriebenen Journalismus wurde 2009 geprägt. Seine praktische Anwendung ist jedoch so alt wie das Konzept der Daten selbst. Kaum zu glauben? Der Bericht über die Kriegsbedingungen , denen britische Truppen im Jahr 1858 ausgesetzt waren, zeigt, wie schön eine Geschichte um Fakten und Daten gewoben wurde, um eine überzeugende Visualisierung zu präsentieren, die die Führer zum sofortigen Handeln veranlasst. Und ja – der Bericht ist über 150 Jahre alt!
Um Datenjournalismus zu definieren, ist es die journalistische Praxis, die im heutigen Zeitalter der Datenexplosion verwendet wird. In der Praxis analysiert ein Journalist Daten und generiert Erkenntnisse aus riesigen Datensätzen. Das Ergebnis dieser Praxis ist es, eine mit Fakten gefüllte Nachrichtengeschichte zu erstellen, die sich eher auf Daten als auf Hörensagen stützt. Sie fragen sich vielleicht, warum diese Praxis in letzter Zeit so viel Fahrt aufgenommen hat, während das Erstellen von Nachrichten seit Jahrzehnten existiert. Die Antwort ist einfach – im heutigen Zeitalter werden viele Daten generiert, gespeichert, kuratiert und konsumiert. Zu den Hauptkomponenten, die den Datenjournalismus vorangetrieben haben, gehören:
- Verfügbarkeit von Open-Source-Tools , die die Kosten der computergestützten Datenanalyse und Gewinnung von Erkenntnissen senken
- Offener Zugang zu Daten und veröffentlichten Inhalten, die dazu beigetragen haben, Zugangsbeschränkungen (z. B. Zugangsgebühren oder Abonnementgebühren) oder Nutzungsbeschränkungen (z. B. Urheberrechts- und Lizenzbeschränkungen) aufzuheben
- Das Konzept der offenen Daten , das die meisten Daten frei auf Kanälen wie Internet und Handels- oder Regierungsveröffentlichungen verfügbar macht.
Der einfache Zugang zu offenen Daten bedeutet, dass Datenjournalismus nicht auf professionelle Datenwissenschaftler beschränkt sein muss. Jeder, der sich mit einer Tabellenkalkulation auskennt, kann investigativen Journalismus betreiben, um versteckte Fakten aufzudecken. Das bedeutet aber auch, dass die Praxis einen klar definierten Prozess haben sollte, damit die breitere Streuung der Nutzer die Wirksamkeit des investigativen Journalismus nicht verwässert.
Datenjournalismus – Die wichtigsten Schritte
Wie oben erläutert, muss Datenjournalismus ein gut durchdachter Prozess sein, der wichtige Schritte umfasst, die für die Ausführung des Prozesses unerlässlich sind. Auf einer sehr grundlegenden Ebene besagt der Workflow, dass Informationen zuerst beschafft oder gefunden werden müssen (oder nach dem Finden sinnvoll gemacht werden müssen). Dies kann die Verwendung von Tools wie SQL beinhalten. Es muss dann analysiert werden (was möglicherweise die richtige Terminologie und den Fachjargon erfordert). Post this, Daten müssen visualisiert werden, um die gesammelten Informationen in einem Bildformat darzustellen, um eine bessere Datenverarbeitung zu fördern. Sobald dies fertig ist, kann es für die gewünschte Zielgruppe oder Interessengruppen heruntergeladen werden. Dies ist die letzte Phase, in der die Fakten, Berichte und Trends in Form einer Nachricht einem größeren Publikum zugänglich gemacht werden.
Die bekannteste Studie zum Workflow des Datenjournalismus wurde 2011 von Paul Bradshaw veröffentlicht . Darin wurden sechs verschiedene Phasen unter einer „umgekehrten Pyramide des Datenjournalismus“ skizziert. Schauen wir uns einen typischen Workflow mit Datenjournalismus in dieser umgekehrten Pyramide an:

- Finden: Informationen oder Daten online beschaffen
- Bereinigen: Fügen Sie Filter und Logik hinzu, um Daten zu transformieren
- Visualisieren: Die transformierten Daten zeigen dann Ergebnisse in Form von Schlussfolgerungen, Trends, Statistiken oder Mustern in Form eines statischen oder animierten Bildes
- Veröffentlichen: Zusammenfügen der visuellen Elemente, um eine überzeugende Geschichte zu weben
- Verteilen: Teilen Sie die Geschichte auf verschiedenen Vertriebskanälen wie dem Internet, sozialen Medien, Smartphones oder Tablets
- Messen: Überwachen Sie die Nutzung des Inhalts, um Trends und die Art der Benutzer anzuzeigen, die ihn lesen.
Wir werden diese Schritte nun genauer untersuchen
Daten finden – Das Sammeln von Daten ist der erste Schritt zum investigativen Journalismus. Von der Durchführung von Exkursionen über die Ermittlung der tatsächlichen Ursache kriminellen Fehlverhaltens bis hin zur Untersuchung der Auswirkungen eines langfristigen Problems gibt es viele Möglichkeiten, Daten zu finden. Um die Daten zu finden, müssen Sie zunächst die richtigen Quellen ermitteln. Wenn jemand bereits über ein aktuelles Thema publiziert hat, das Sie gerade untersuchen, dann ist es sinnvoll, die Sekundärrecherche als Ausgangspunkt zu nehmen. Wenn Sie jedoch etwas Sensibles untersuchen, müssen Sie möglicherweise Gerüchte und Gerüchte umgehen und Ihre eigenen unparteiischen und unvoreingenommenen Nachforschungen anstellen, um die Daten zu finden.
Nehmen Sie das Beispiel der umstrittenen investigativen journalistischen Arbeit eines gewissen „NH“ im Jahr 1821 (ja, fast 200 Jahre zurück!). Es zeigte eine Liste von Schülern, die an Schulen in Manchester und Salford eingeschrieben waren, und die von ihnen gezahlten Gebühren. Durch manuelles Scraping versuchte der Datenjournalist herauszufinden, wie viele von ihnen eine kostenlose Ausbildung erhielten. Während es fast 25.000 Studenten zeigte, die eine kostenlose Ausbildung erhielten, wurde die Zahl in den offiziellen Aufzeichnungen auf nur 8.000 festgesetzt. Dies deckte einen massiven Fehler in den offiziellen Statistiken auf, die von Geistlichen (Datenerfassungsbeamten aus alten Tagen) gesammelt wurden. Dies war ein klassischer Fall, in dem Daten gefunden wurden, die eine Aktion auslösten.
Datenbereinigung – Normalerweise haben Daten aus verschiedenen Quellen unterschiedliche Formate. Dies muss bereinigt und normalisiert werden, um zukünftige Analysen zu erleichtern. Beispielsweise werden bei der Datenextraktion für das Gewicht bei übergewichtigen Kindern die US-Daten in Kilogramm angegeben, während die britischen Daten in Pfund angegeben werden. Zur Vereinfachung der Analyse müssen diese gereinigt und auf eine einzelne Messeinheit abgestimmt werden.
Datenvisualisierung – Dies ist ein wichtiges Bindeglied, bei dem die Daten von reinen Zahlen zu einer visuellen Darstellung übergehen, die zu schnellen Schlussfolgerungen führen kann. Sobald die Daten in einem aussagekräftigen Format in Tabellenkalkulationen abgelegt sind, werden sie durch Datenvisualisierungstools wie OpenRefine und Tableau Public geleitet. Hier ist eine Liste mit kostenlosen Datenvisualisierungstools, die Ihnen zur Verfügung stehen.
Veröffentlichung – Mit einem Content Management System wird die Visualisierung strategisch basierend auf der erwarteten Leserschaft veröffentlicht.
Datenverteilung – Spezialisierte Content-Marktplätze bieten Zugang zu dieser investigativen Visualisierung. Über diesen Kanal können andere die Datengeschichten aufgreifen und ihre eigenen Ermittlungen fortsetzen.
Bewertung der Wirkung von investigativem Journalismus – Der ganze Sinn der Durchführung von eingehendem investigativem Journalismus besteht darin, eine tiefgreifende Wirkung zu erzielen. Und woher wissen Sie, ob Ihre Geschichte Wirkung erzielt? Natürlich durch Tools, die speziell dafür entwickelt wurden, die Auswirkungen von Datengeschichten zu überwachen.
Zum Abmelden
Viele Fallstudien weisen auf die immense Wirkung des investigativen Journalismus durch Datenextraktion hin. Die bekannteste davon ist die WikiLeaks - Veröffentlichung klassifizierter Daten von Regierungsbehörden. Die Art und Weise, wie es die öffentliche und soziale Politik auf höchster Ebene in Ländern wie den USA beeinflusst hat, spricht Bände über den tiefen Einfluss des investigativen Journalismus.
Heute reicht es nicht mehr aus, Daten zu sammeln und Erkenntnisse abzuleiten. Die Einsicht muss durch eine kreative Visualisierung unterstützt werden, aber noch wichtiger ist, dass sie durch eine solide Geschichte untermauert werden muss, die erstellt wurde, um Ihren Standpunkt zu unterstützen. Datenjournalismus wird mit Hilfe von Data Scraping zunehmend als wichtiges Tool zur Generierung von Erkenntnissen angesehen und wird zu einem zuverlässigen Hilfsmittel für die Datenvisualisierung und die datengestützte Berichterstattung über Nachrichten.
Bleiben Sie dran für unseren nächsten Artikel über die richtige Preisgestaltung Ihrer Produkte.
Planen Sie, Daten aus dem Internet zu erfassen? Wir sind hier um zu helfen. Teilen Sie uns Ihre Anforderungen mit.
