Utilizarea Web Scraping pentru jurnalismul de investigație
Publicat: 2016-09-09Fiind un instrument valoros de generare de date și informații, web scraping a adăugat o valoare imensă multor afaceri din diferite verticale ale industriei. De la asistență medicală la auto, și științele vieții la agențiile guvernamentale, nu există nicio verticală care să fi rămas neatinsă de influența și impactul web scraping. Cu toate acestea, ceea ce este interesant de remarcat este modul în care scrapingul web și extragerea datelor sunt utilizate pentru forme mai noi de aplicare. Un astfel de mod interesant de aplicare a metodelor științifice de extragere a datelor este în domeniul jurnalismului de investigație.
Ce este jurnalismul de investigație?
Jurnalismul de investigație este o parte esențială a raportării faptelor. Este domeniul în care jurnalistul va investiga în profunzime un subiect, în special pe cele legate de ordinea publică sau de activități de natură penală. Ceea ce este fascinant de remarcat este cantitatea de eforturi și timpul pe care un jurnalist va petrece pe acest subiect unic. Investigația poate dura săptămâni, luni sau chiar ani pentru a da rezultatul dorit, după cercetarea și pregătirea unui raport de investigație detaliat.

Un aspect crucial al jurnalismului de investigație este cercetarea și aici extragerea de date de înaltă calitate ajută la îmbunătățirea calității generale a raportării finale. Deoarece majoritatea datelor care urmează să fie cercetate sunt ascunse sau nu sunt vizibile la vedere, unui jurnalist este nevoie de mult efort pentru a dezlipi strat după strat din ceea ce i se oferă pentru a descoperi faptele corecte. În timp ce date considerabile sunt disponibile prin comunicate de presă, comentarii, conferințe de presă și anunțuri corporative, un adevărat jurnalist de investigație albastru nu se va baza doar pe aceste fapte. El/Ea va săpa mai adânc pentru a descoperi adevărurile întunecate ascunse în spatele imaginii în mare parte roz prezentate publicului larg. El/ea va folosi data mining pentru a îndeplini această sarcină dificilă.
Aceasta este exact coloana vertebrală a jurnalismului de date – adică alimentând jurnalismul de investigație cu ajutorul datelor.
Ce este jurnalismul de date?
Termenul de jurnalism bazat pe date a fost inventat în 2009. Cu toate acestea, aplicarea sa practică este la fel de bătrână ca și conceptul de date în sine. Îți este greu de crezut? Raportul despre condițiile de război cu care au trebuit să se confrunte trupele britanice în 1858 arată cât de frumos a fost țesută o poveste în jurul faptelor și datelor pentru a prezenta o vizualizare convingătoare care atrage o acțiune promptă din partea liderilor. Și da – raportul are mai bine de 150 de ani!
Pentru a defini jurnalismul de date, este practica jurnalistică folosită în epoca actuală a exploziei datelor. Practica vede un jurnalist analizând datele și generând perspective din seturi uriașe de date. Rezultatul acestei practici este de a ajuta la crearea unei știri pline de fapte, care se bazează mai degrabă pe date decât pe auzite. S-ar putea să vă întrebați de ce această practică a câștigat atât de mult abur în ultima vreme, în timp ce crearea de știri există de zeci de ani. Răspunsul este simplu – epoca de astăzi vede o mulțime de date generate, stocate, curatate și consumate. Principalele componente care au determinat jurnalismul de date includ
- Disponibilitatea instrumentelor open source care reduce costul analizei datelor bazate pe computer și al generării de informații
- Acces deschis la date și conținut publicat care a ajutat la eliminarea restricțiilor privind accesul (de exemplu, taxele de acces sau taxele de abonament) sau privind utilizarea acestora (de exemplu, restricțiile privind drepturile de autor și licențele)
- Conceptul de date deschise care face ca majoritatea datelor să fie disponibile gratuit pe canale precum internetul și comerțul sau publicațiile guvernamentale.
Accesul ușor la date deschise înseamnă că jurnalismul de date nu trebuie să se limiteze la cercetătorii profesioniști de date. Oricine este familiarizat cu o foaie de calcul poate desfășura jurnalism de investigație pentru a descoperi fapte ascunse. Cu toate acestea, aceasta înseamnă și că practica ar trebui să aibă un proces bine definit, astfel încât răspândirea mai largă a utilizatorilor să nu dilueze eficacitatea jurnalismului de investigație.
Jurnalismul de date – pașii cheie
După cum sa discutat mai sus, jurnalismul de date trebuie să fie un proces bine gândit, care implică pași cheie esențiali pentru executarea procesului. La un nivel foarte de bază, fluxul de lucru afirmă că informațiile trebuie mai întâi să fie găsite sau găsite (sau să le facă sens după găsire). Acest lucru poate implica utilizarea unor instrumente precum SQL. Apoi trebuie analizat (care poate necesita obținerea corectă a terminologiei și a jargonului tehnic). Postați asta, datele trebuie vizualizate pentru a prezenta informațiile colectate într-un format pictural pentru a promova o mai bună digestie a datelor. Odată ce acesta este gata, poate fi descărcat către publicul sau părțile interesate solicitate. Aceasta este etapa finală în care faptele, rapoartele și tendințele sunt prezentate unui public mai larg sub forma unei știri.

Cel mai cunoscut studiu despre fluxul de lucru al jurnalismului de date a fost lansat în 2011 de Paul Bradshaw . Acesta a subliniat șase faze diferite sub o „piramidă inversată a jurnalismului de date”. Să ne uităm la un flux de lucru tipic care implică jurnalismul de date în această piramidă inversată:
- Găsiți: obținerea informațiilor sau a datelor online
- Curățare: adăugați filtre și logică pentru a transforma datele
- Vizualizați: datele transformate arată apoi rezultate sub formă de inferență, tendințe, statistici sau modele, sub forma unui vizual static sau animat
- Publicare: unind elementele vizuale, pentru a țese o poveste convingătoare
- Distribuiți: împărtășiți povestea pe diverse canale de distribuție, cum ar fi internetul, rețelele sociale, smartphone-urile sau tabletele
- Măsură: Monitorizați consumul de conținut pentru a vedea tendințele și tipul de utilizatori care îl citesc.
Vom explora acum acești pași mai detaliat
Găsirea datelor – Adunarea datelor este primul pas către jurnalismul de investigație. Chiar de la excursii pe teren până la aflarea cauzei reale a faptelor criminale până la studiul impactului unei probleme pe termen lung, există multe modalități de a găsi date. Pentru a găsi datele, va trebui mai întâi să determinați sursele potrivite. Dacă cineva a publicat deja despre o problemă în curs de desfășurare pe care se întâmplă să o investighezi, atunci este logic să faci cercetarea secundară ca punct de plecare. Dacă, totuși, investigați ceva sensibil, atunci poate fi necesar să ocoliți vița de vie și zvonurile și să efectuați propria dvs. cercetare imparțială și imparțială pentru a găsi datele.
Luați exemplul lucrării controversate de jurnalism de investigație efectuată de un anume „NH” în 1821 (da, cu aproape 200 de ani în urmă!). A arătat o listă a elevilor înscriși în școlile din Manchester și Salford și taxele plătite de aceștia. Folosind răzuirea manuală, jurnalistul de date a încercat să-și dea seama câți au primit educație gratuită. Deși a arătat că aproape 25 000 de studenți primesc educație gratuită, înregistrările oficiale au fixat numărul la doar 8 000. Acest lucru a descoperit o defecțiune masivă în statisticile oficiale colectate de clerici (grefieri de date de pe vremuri). Acesta a fost un caz clasic de găsire a datelor care declanșează acțiuni.
Curățarea datelor – De obicei, datele din diferite surse vor fi în formate diferite. Acest lucru trebuie curățat și normalizat pentru ușurința analizelor viitoare. De exemplu, în timp ce se efectuează extragerea datelor pentru greutatea copiilor obezi, datele din SUA vor fi în kilograme, în timp ce datele din Marea Britanie vor fi în lire sterline. Pentru ușurința analizei, acestea vor trebui curățate și făcute coerente cu o singură unitate de măsură.
Vizualizarea datelor – Aceasta este o legătură importantă în care datele se mută de la a fi doar numere la o reprezentare vizuală care poate duce la deduceri rapide. Odată ce datele sunt plasate pe foi de calcul într-un format semnificativ, sunt transmise prin instrumente de vizualizare a datelor precum OpenRefine și Tableau Public. Iată o listă de instrumente gratuite de vizualizare a datelor disponibile pentru dvs.
Publicare – Folosind un sistem de management al conținutului, vizualizarea este publicată strategic, pe baza cititorilor așteptați.
Distribuția datelor – Piețele de conținut specializate oferă acces la această vizualizare investigativă. Prin acest canal, alții pot prelua poveștile de date și pot continua propria lor linie de investigație.
Evaluarea impactului jurnalismului de investigație – Întregul scop al conducerii jurnalismului de investigație aprofundat este de a crea un impact profund. Și de unde știi dacă povestea ta are un impact? Desigur, prin instrumente care sunt create special pentru a monitoriza impactul poveștilor de date.
Pentru a deconecta
Multe studii de caz subliniază impactul imens generat de jurnalismul de investigație folosind extragerea datelor. Cea mai cunoscută dintre acestea este publicația WikiLeaks a datelor clasificate ale agențiilor guvernamentale. Modul în care a afectat politicile publice și de bunăstare la cel mai înalt nivel în țări precum SUA, spune multe despre influența profundă a jurnalismului de investigație.
Astăzi nu mai este suficient să colectezi date și să obții perspective. Perspectiva trebuie să fie susținută de o vizualizare creativă, dar, mai important decât atât, trebuie să fie susținută de o poveste solidă creată pentru a vă susține punctul de vedere. Jurnalismul de date, cu ajutorul scraping-ului de date, este din ce în ce mai privit ca un instrument cheie de generare de informații și devine un ajutor de încredere pentru vizualizarea datelor și raportarea știrilor bazate pe date.
Rămâneți la curent cu următorul nostru articol despre stabilirea corectă a prețurilor produselor dvs.
Plănuiți să achiziționați date de pe web? Suntem aici pentru a vă ajuta. Anunțați-ne despre cerințele dvs.
