Utilizzo del web scraping per il giornalismo investigativo

Pubblicato: 2016-09-09

In quanto prezioso strumento di generazione di dati e insight, il web scraping ha aggiunto un valore immenso a molte aziende in diversi settori verticali. Dall'assistenza sanitaria all'automotive, dalle scienze della vita alle agenzie governative, non esiste alcuna verticale che sia rimasta indenne dall'influenza e dall'impatto del web scraping. Tuttavia, ciò che è interessante notare è il modo in cui il web scraping e l'estrazione dei dati vengono utilizzati per le nuove forme di applicazione. Una di queste entusiasmanti vie di applicazione dei metodi scientifici di estrazione dei dati è nel campo del giornalismo investigativo.

Che cos'è il giornalismo investigativo?

Il giornalismo investigativo è una parte cruciale della cronaca. È il campo in cui il giornalista indagherà a fondo su un argomento, in particolare quelli relativi alla legge e all'ordine o alle attività di natura criminale. Ciò che è affascinante notare è la quantità di sforzi e di tempo che un giornalista dedicherà a questo singolo argomento. L'indagine può richiedere settimane, mesi o addirittura anni per ottenere il risultato desiderato, dopo aver ricercato e preparato un rapporto di indagine dettagliato.

Utilizzo del web scraping per il giornalismo investigativo

Un aspetto cruciale del giornalismo investigativo è la ricerca ed è qui che il data mining di alta qualità aiuta a migliorare la qualità complessiva del report finale. Poiché la maggior parte dei dati da ricercare è nascosta o non visibile in bella vista, un giornalista richiede un grande sforzo per rimuovere strato dopo strato ciò che gli viene fornito per scoprire i fatti corretti. Sebbene siano disponibili dati considerevoli attraverso comunicati stampa, commenti, conferenze stampa e annunci aziendali, un vero giornalista investigativo blu non si baserà semplicemente su questi fatti. Scaverà più a fondo per scoprire le oscure verità nascoste dietro l'immagine per lo più rosea presentata al grande pubblico. Utilizzerà il data mining per svolgere questo difficile compito.

Questa è esattamente la spina dorsale del giornalismo dei dati, ovvero potenziare il giornalismo investigativo con l'aiuto dei dati.

Che cos'è il giornalismo dei dati?

Il termine giornalismo guidato dai dati è stato coniato nel 2009. Tuttavia, la sua applicazione pratica è vecchia quanto il concetto stesso di dati. Hai difficoltà a crederci? Il rapporto sulle condizioni in tempo di guerra che le truppe britanniche dovettero affrontare nel 1858 mostra quanto meravigliosamente fosse intessuta una storia attorno a fatti e dati per presentare una visualizzazione avvincente che suscita un'azione tempestiva da parte dei leader. E sì, il rapporto ha più di 150 anni!

Per definire il data journalism, è la pratica giornalistica utilizzata nell'odierna era dell'esplosione dei dati. La pratica vede un giornalista analizzare i dati e generare approfondimenti da enormi set di dati. Il risultato di questa pratica è quello di aiutare a creare una notizia piena di fatti che si basa sui dati piuttosto che sul sentito dire. Potresti chiederti perché questa pratica sta raccogliendo così tanto vigore negli ultimi tempi mentre la creazione di notizie è in circolazione da decenni. La risposta è semplice: l'età odierna vede molti dati generati, archiviati, curati e consumati. I componenti principali che hanno guidato il giornalismo sui dati includono

  • Disponibilità di strumenti open source che riducono il costo dell'analisi dei dati basata su computer e la generazione di informazioni dettagliate
  • Accesso aperto ai dati e ai contenuti pubblicati che ha contribuito a rimuovere le restrizioni all'accesso (ad es. costi di accesso o costi di abbonamento) o al loro utilizzo (ad es. restrizioni sui diritti d'autore e sulla licenza)
  • Il concetto di open data che rende la maggior parte dei dati disponibile gratuitamente su canali come Internet e pubblicazioni commerciali o governative.

Il facile accesso ai dati aperti significa che il giornalismo dei dati non deve essere limitato ai data scientist professionisti. Chiunque abbia familiarità con un foglio di calcolo può svolgere attività di giornalismo investigativo per scoprire fatti nascosti. Tuttavia, questo significa anche che la pratica dovrebbe avere un processo ben definito in modo che la più ampia diffusione degli utenti non diluisca l'efficacia del giornalismo investigativo.

Data journalism – I passaggi chiave

Come discusso in precedenza, il giornalismo dei dati deve essere un processo ben ponderato che coinvolge passaggi chiave essenziali per eseguire il processo. A un livello molto semplice, il flusso di lavoro afferma che le informazioni devono prima essere reperite o trovate (o avere un senso dopo averle trovate). Ciò può comportare l'uso di strumenti come SQL. Deve quindi essere analizzato (che potrebbe richiedere di ottenere terminologie e gergo tecnico corretti). Dopo questo, i dati devono essere visualizzati per presentare le informazioni raccolte in un formato pittorico per promuovere una migliore digestione dei dati. Una volta che questo è pronto, può essere scaricato per il pubblico richiesto o per le parti interessate. Questa è la fase finale in cui i fatti, i rapporti e le tendenze vengono presentati a un pubblico più ampio sotto forma di notizia.

Lo studio più noto sul flusso di lavoro del data journalism è stato pubblicato nel 2011 da Paul Bradshaw . Ha delineato sei diverse fasi sotto una "piramide invertita del giornalismo dei dati". Diamo un'occhiata a un tipico flusso di lavoro che coinvolge il giornalismo di dati in questa piramide invertita:

  1. Trova: ricerca di informazioni o dati online
  2. Pulisci: aggiungi filtri e logica per trasformare i dati
  3. Visualizza: i dati trasformati mostrano quindi i risultati sotto forma di inferenza, tendenze, statistiche o modelli, sotto forma di immagini statiche o animate
  4. Pubblica: unendo insieme le immagini, per tessere una storia avvincente
  5. Distribuisci: condivisione della storia su vari canali di distribuzione come Internet, social media, smartphone o tablet
  6. Misura: monitora il consumo del contenuto per visualizzare le tendenze e il tipo di utenti che lo leggono.

Esploreremo ora questi passaggi in modo più dettagliato

Trovare i dati – La raccolta dei dati è il primo passo verso il giornalismo investigativo. Dal fare viaggi sul campo alla scoperta della vera causa di illeciti criminali allo studio dell'impatto di un problema a lungo termine, ci sono molti modi per trovare dati. Per trovare i dati, dovrai prima determinare le fonti giuste. Se qualcuno ha già pubblicato su un problema in corso su cui stai indagando, allora ha senso prendere la ricerca secondaria come punto di partenza. Se, tuttavia, stai indagando su qualcosa di sensibile, potrebbe essere necessario aggirare la vite e le voci e condurre la tua ricerca imparziale e imparziale per trovare i dati.

Prendi l'esempio del controverso lavoro di giornalismo investigativo svolto da un certo "NH" nel 1821 (sì, quasi 200 anni fa!). Mostrava un elenco di studenti iscritti alle scuole di Manchester e Salford e le tasse pagate da loro. Utilizzando lo scraping manuale, il giornalista di dati ha cercato di capire quanti ricevevano un'istruzione gratuita. Mentre mostrava che quasi 25000 studenti ricevevano istruzione gratuita, i registri ufficiali fissavano il numero a soli 8000. Ciò ha scoperto un enorme difetto con le statistiche ufficiali raccolte dai sacerdoti (impiegati all'immissione dei dati dei vecchi tempi). Questo è stato un classico caso di ricerca di dati che hanno attivato l'azione.

Pulizia dei dati : in genere, i dati provenienti da origini diverse saranno in formati diversi. Questo deve essere pulito e normalizzato per facilitare l'analisi futura. Ad esempio, durante l'estrazione dei dati per il peso tra i bambini obesi, i dati statunitensi saranno in chilogrammi, mentre i dati nel Regno Unito saranno in sterline. Per facilitare l'analisi, questi dovranno essere puliti e resi coerenti con una singola unità di misura.

Visualizzazione dei dati : questo è un collegamento importante in cui i dati passano dall'essere solo numeri a una rappresentazione visiva che può portare a inferenze rapide. Una volta inseriti nei fogli di calcolo in un formato significativo, i dati vengono passati attraverso strumenti di visualizzazione dei dati come OpenRefine e Tableau Public. Ecco un elenco di strumenti gratuiti per la visualizzazione dei dati a tua disposizione.

Pubblicazione : utilizzando un sistema di gestione dei contenuti, la visualizzazione viene pubblicata strategicamente, in base al numero di lettori previsto.

Distribuzione dei dati : i mercati di contenuti specializzati forniscono l'accesso a questa visualizzazione investigativa. Attraverso questo canale, altri possono raccogliere le storie di dati e portare avanti la propria linea di indagine.

Valutare l'impatto del giornalismo investigativo – Lo scopo principale di condurre un giornalismo investigativo approfondito è creare un impatto profondo. E come fai a sapere se la tua storia sta creando un impatto? Naturalmente, da strumenti creati appositamente per monitorare l'impatto delle storie di dati.

Per firmare

Molti casi di studio sottolineano l'immenso impatto determinato dal giornalismo investigativo tramite l'estrazione di dati. Il più noto di questi è la pubblicazione di WikiLeaks di dati riservati delle agenzie governative. Il modo in cui ha avuto un impatto sulle politiche pubbliche e assistenziali ai massimi livelli in paesi come gli Stati Uniti, la dice lunga sulla profonda influenza del giornalismo investigativo.

Oggi non è più sufficiente raccogliere dati e ricavare insight. L'intuizione deve essere supportata da una visualizzazione creativa, ma, cosa ancora più importante, deve essere supportata da una solida storia creata per supportare il tuo punto di vista. Il giornalismo dei dati, con l'aiuto dello scraping dei dati, è sempre più visto come uno strumento chiave per la generazione di informazioni dettagliate e sta diventando un aiuto affidabile per la visualizzazione dei dati e la segnalazione di notizie supportate dai dati.

Resta sintonizzato per il nostro prossimo articolo sul prezzo giusto dei tuoi prodotti.

Stai pianificando di acquisire dati dal web? Siamo qui per aiutare. Facci sapere le tue esigenze.