Korzystanie ze skrobania sieci w dziennikarstwie śledczym
Opublikowany: 2016-09-09Jako cenne narzędzie do generowania danych i spostrzeżeń, web scraping dodał ogromną wartość wielu firmom w różnych branżach. Od opieki zdrowotnej po motoryzację i nauki przyrodnicze po agencje rządowe, nie ma branży, która pozostała nietknięta pod wpływem i wpływem skrobania sieci. Warto jednak zwrócić uwagę na sposób, w jaki web scraping i ekstrakcja danych są wykorzystywane w nowszych formach aplikacji. Jedną z takich ekscytujących dróg zastosowania naukowych metod ekstrakcji danych jest dziennikarstwo śledcze.
Czym jest dziennikarstwo śledcze?
Dziennikarstwo śledcze jest kluczowym elementem raportowania faktów. Jest to pole, w którym dziennikarz dogłębnie zgłębi jeden temat, zwłaszcza te związane z prawem i porządkiem lub działaniami o charakterze kryminalnym. Fascynujące jest to, jak wiele wysiłku i czasu poświęci dziennikarz na ten jeden temat. Dochodzenie może zająć tygodnie, miesiące, a nawet lata, aby przynieść pożądany rezultat, po zbadaniu i przygotowaniu szczegółowego raportu z dochodzenia.

Kluczowym aspektem dziennikarstwa śledczego są badania naukowe i to właśnie tam wysokiej jakości eksploracja danych pomaga poprawić ogólną jakość końcowego raportu. Ponieważ większość danych, które mają zostać zbadane, jest ukryta lub niewidoczna na widoku, dziennikarzowi potrzeba dużo wysiłku, aby odrywać warstwę po warstwie tego, co jest mu dostarczane, aby odkryć prawidłowe fakty. Chociaż w komunikatach prasowych, komentarzach, konferencjach prasowych i ogłoszeniach korporacyjnych dostępnych jest wiele danych, prawdziwy niebieski dziennikarz śledczy nie będzie polegał tylko na tych faktach. On / Ona będzie kopać głębiej, aby odkryć mroczne prawdy ukryte za w większości różowym obrazem przedstawianym szerokiej publiczności. Wykorzysta eksplorację danych do wykonania tego trudnego zadania.
To jest właśnie podstawa dziennikarstwa danych – tj. wspomaganie dziennikarstwa śledczego za pomocą danych.
Czym jest dziennikarstwo danych?
Termin dziennikarstwo oparte na danych został ukuty w 2009 roku. Jednak jego praktyczne zastosowanie jest tak samo stare, jak samo pojęcie danych. Trudno w to uwierzyć? Raport o warunkach wojennych, z którymi musiały zmierzyć się wojska brytyjskie w 1858 roku, pokazuje, jak pięknie historia została utkana z faktów i danych, aby przedstawić przekonującą wizualizację, która wywołuje natychmiastowe działanie ze strony przywódców. I tak – raport ma już ponad 150 lat!
Aby zdefiniować dziennikarstwo danych, jest to praktyka dziennikarska stosowana w dzisiejszych czasach eksplozji danych. Praktyka polega na tym, że dziennikarz analizuje dane i generuje spostrzeżenia z ogromnych zbiorów danych. Rezultatem tej praktyki jest pomoc w tworzeniu opartej na faktach historii informacyjnej, która opiera się na danych, a nie pogłoskach. Możesz zapytać, dlaczego ta praktyka nabiera tak dużej popularności w ostatnich czasach, podczas gdy tworzenie wiadomości istnieje od dziesięcioleci. Odpowiedź jest prosta – w dzisiejszych czasach wiele danych jest generowanych, przechowywanych, nadzorowanych i konsumowanych. Główne elementy napędzające dziennikarstwo danych to:
- Dostępność narzędzi open source, które obniżają koszty komputerowej analizy danych i generowania wglądu
- Otwarty dostęp do danych i publikowanych treści, które pomogły usunąć ograniczenia dostępu (np. opłaty za dostęp lub opłaty abonamentowe) lub jego użytkowania (np. ograniczenia dotyczące praw autorskich i licencji)
- Koncepcja otwartych danych , która sprawia, że większość danych jest swobodnie dostępna w kanałach takich jak Internet, handel lub publikacje rządowe.
Łatwy dostęp do otwartych danych oznacza, że dziennikarstwo danych nie musi ograniczać się do profesjonalnych analityków danych. Każdy, kto zna arkusz kalkulacyjny, może prowadzić dziennikarstwo śledcze, aby odkryć ukryte fakty. Oznacza to jednak również, że praktyka powinna mieć dobrze zdefiniowany proces, tak aby szersza liczba użytkowników nie osłabiała skuteczności dziennikarstwa śledczego.
Dziennikarstwo danych – kluczowe kroki
Jak wspomniano powyżej, dziennikarstwo danych musi być dobrze przemyślanym procesem, który obejmuje kluczowe kroki niezbędne do realizacji procesu. Na bardzo podstawowym poziomie przepływ pracy stwierdza, że informacje należy najpierw pozyskać lub znaleźć (lub nadać sens po znalezieniu). Może to wiązać się z użyciem narzędzi takich jak SQL. Następnie należy je przeanalizować (co może wymagać poprawnej terminologii i żargonu technicznego). Opublikuj to, dane muszą być wizualizowane, aby przedstawić zebrane informacje w formacie obrazkowym, aby promować lepsze trawienie danych. Gdy jest gotowy, można go pobrać do wymaganych odbiorców lub interesariuszy. Jest to ostatni etap, w którym fakty, raporty i trendy są przedstawiane szerszej publiczności w formie wiadomości.

Najbardziej znane badanie dotyczące przepływu pracy w dziennikarstwie danych zostało opublikowane w 2011 r. przez Paula Bradshawa . Nakreślono sześć różnych faz w ramach „odwróconej piramidy dziennikarstwa danych”. Spójrzmy na typowy przepływ pracy obejmujący dziennikarstwo danych w tej odwróconej piramidzie:
- Znajdź: Pozyskiwanie informacji lub danych online
- Wyczyść: Dodaj filtry i logikę, aby przekształcić dane
- Wizualizuj: Przekształcone dane pokazują następnie wyniki w postaci wnioskowania, trendów, statystyk lub wzorców w postaci statycznej lub animowanej wizualizacji
- Opublikuj: Łącząc materiały wizualne, aby utkać fascynującą historię
- Dystrybucja: Udostępnianie historii w różnych kanałach dystrybucji, takich jak Internet, media społecznościowe, smartfony lub tablety
- Mierz: Monitoruj zużycie treści, aby zobaczyć trendy i typ użytkowników, którzy ją czytają.
Omówimy teraz te kroki bardziej szczegółowo
Znajdowanie danych – Zbieranie danych to pierwszy krok w kierunku dziennikarstwa śledczego. Istnieje wiele sposobów znajdowania danych, począwszy od wycieczek w terenie, przez znalezienie rzeczywistej przyczyny przestępstwa, aż po zbadanie wpływu długoterminowego problemu. Aby znaleźć dane, musisz najpierw określić odpowiednie źródła. Jeśli ktoś już opublikował informacje o bieżącym problemie, który akurat badasz, to sensowne jest, aby za punkt wyjścia przyjąć dodatkowe badania. Jeśli jednak badasz coś wrażliwego, być może będziesz musiał ominąć winorośl i plotki i przeprowadzić własne bezstronne i bezstronne badania, aby znaleźć dane.
Weźmy za przykład kontrowersyjną pracę dziennikarstwa śledczego, prowadzoną przez pewnego „NH” w 1821 r. (tak, prawie 200 lat temu!). Pokazywała listę uczniów zapisanych do szkół w Manchesterze i Salford oraz czesne przez nich uiszczane. Używając ręcznego skrobania, dziennikarz danych próbował dowiedzieć się, ilu z nich otrzymywało bezpłatną edukację. Chociaż pokazało, że prawie 25000 uczniów otrzymuje bezpłatną edukację, oficjalne dane ustalają tę liczbę na zaledwie 8000. To ujawniło ogromną lukę w oficjalnych statystykach gromadzonych przez duchownych (urzędników zajmujących się wprowadzaniem danych z dawnych czasów). To był klasyczny przypadek znajdowania danych, które wyzwalają działanie.
Czyszczenie danych — zazwyczaj dane z różnych źródeł będą w różnych formatach. Należy to wyczyścić i znormalizować, aby ułatwić przyszłą analizę. Na przykład podczas ekstrakcji danych dotyczących wagi otyłych dzieci dane z USA będą podawane w kilogramach, podczas gdy dane z Wielkiej Brytanii będą w funtach. Aby ułatwić analizę, będą one musiały zostać wyczyszczone i spójne z pojedynczą jednostką miary.
Wizualizacja danych — jest to ważne łącze, w którym dane przechodzą z samych liczb do wizualnej reprezentacji, która może prowadzić do szybkich wniosków. Po umieszczeniu danych w arkuszach kalkulacyjnych w zrozumiałym formacie są one przekazywane przez narzędzia do wizualizacji danych, takie jak OpenRefine i Tableau Public. Oto lista dostępnych bezpłatnych narzędzi do wizualizacji danych.
Publikowanie – Za pomocą systemu zarządzania treścią wizualizacja jest publikowana strategicznie, w oparciu o oczekiwane czytelnictwo.
Dystrybucja danych — wyspecjalizowane rynki treści zapewniają dostęp do tej wizualizacji badawczej. Dzięki temu kanałowi inni mogą zebrać historie danych i prowadzić własne dochodzenie.
Ocena wpływu dziennikarstwa śledczego – Celem prowadzenia dogłębnego dziennikarstwa śledczego jest wywarcie głębokiego wpływu. A skąd wiesz, czy twoja historia wywiera wpływ? Oczywiście za pomocą narzędzi stworzonych specjalnie do monitorowania wpływu historii danych.
Wypisać się
Wiele studiów przypadku wskazuje na ogromny wpływ dziennikarstwa śledczego z wykorzystaniem ekstrakcji danych. Najbardziej znanym z nich jest publikacja WikiLeaks , zawierająca tajne dane agencji rządowych. Sposób, w jaki wpłynął na politykę publiczną i socjalną na najwyższym szczeblu w krajach takich jak USA, świadczy o głębokim wpływie dziennikarstwa śledczego.
Dziś nie wystarczy już zbieranie danych i uzyskiwanie wglądu. Wgląd musi być poparty kreatywną wizualizacją, ale co ważniejsze, musi być poparta solidną historią stworzoną w celu wspierania twojego punktu widzenia. Dziennikarstwo danych, z pomocą zbierania danych, jest coraz częściej postrzegane jako kluczowe narzędzie do generowania wglądu i staje się zaufaną pomocą w wizualizacji danych i raportowaniu wiadomości opartych na danych.
Bądź na bieżąco z naszym następnym artykułem na temat właściwej wyceny produktów.
Planujesz pozyskiwać dane z sieci? Jesteśmy tutaj, aby pomóc. Daj nam znać o swoich wymaganiach.
