Usando Web Scraping para Jornalismo Investigativo

Publicados: 2016-09-09

Como uma ferramenta valiosa de geração de dados e insights, o web scraping agregou imenso valor a muitas empresas em diferentes verticais do setor. Desde a saúde até o setor automotivo, das ciências da vida às agências governamentais, não há vertical que tenha permanecido intocado da influência e do impacto do web scraping. No entanto, o que é interessante notar é a maneira como o web scraping e a extração de dados estão sendo usados ​​para novas formas de aplicação. Uma dessas excitantes avenidas de aplicação dos métodos científicos de extração de dados é no campo do jornalismo investigativo.

O que é jornalismo investigativo?

O jornalismo investigativo é uma parte crucial da reportagem de fatos. É o campo onde o jornalista investigará profundamente um tópico, especialmente aqueles relacionados à lei e ordem ou atividades que sejam de natureza criminosa. O que é fascinante notar é a quantidade de esforços e tempo que um jornalista gastará neste único tópico. A investigação pode levar semanas, meses ou até anos, para produzir o resultado desejado, após a pesquisa e elaboração de um relatório de investigação detalhado.

Usando Web Scraping para Jornalismo Investigativo

Um aspecto crucial do jornalismo investigativo é a pesquisa e é aí que a mineração de dados de alta qualidade ajuda a melhorar a qualidade geral da reportagem final. Como a maioria dos dados a serem pesquisados ​​estão ocultos ou não são visíveis à vista, o jornalista exige muito esforço para descascar camada após camada do que é fornecido a ele para descobrir os fatos corretos. Embora dados consideráveis ​​estejam disponíveis por meio de comunicados à imprensa, comentários, coletivas de imprensa e anúncios corporativos, um verdadeiro jornalista investigativo não confiará apenas nesses fatos. Ele / Ela vai cavar mais fundo para descobrir as verdades sombrias escondidas por trás da imagem principalmente rosada apresentada ao público em geral. Ele/ela usará mineração de dados para realizar essa difícil tarefa.

Essa é exatamente a espinha dorsal do jornalismo de dados – ou seja, fortalecer o jornalismo investigativo com a ajuda de dados.

O que é jornalismo de dados?

O termo jornalismo orientado a dados foi cunhado em 2009. No entanto, sua aplicação prática é tão antiga quanto o próprio conceito de dados. Acha difícil de acreditar? O relatório sobre as condições de guerra que as tropas britânicas tiveram que enfrentar em 1858 mostra como uma história foi tecida em torno de fatos e dados para apresentar uma visualização convincente que provoca uma ação imediata dos líderes. E sim – o relatório tem mais de 150 anos!

Para definir jornalismo de dados, é a prática jornalística usada na era atual da explosão de dados. A prática vê um jornalista analisando dados e gerando insights de grandes conjuntos de dados. O resultado dessa prática é ajudar a criar uma notícia cheia de fatos que se baseie em dados e não em boatos. Você pode perguntar por que essa prática está ganhando tanto força nos últimos tempos, enquanto a criação de notícias existe há décadas. A resposta é simples – a era de hoje vê muitos dados sendo gerados, armazenados, curados e consumidos. Os principais componentes que impulsionaram o jornalismo de dados incluem

  • Disponibilidade de ferramentas de código aberto que reduzem o custo da análise de dados baseada em computador e geração de insights
  • Acesso aberto a dados e conteúdo publicado que ajudou a remover restrições de acesso (por exemplo, taxas de acesso ou taxas de assinatura) ou de seu uso (por exemplo, restrições de direitos autorais e licenciamento)
  • O conceito de dados abertos que disponibiliza a maioria dos dados gratuitamente em canais como Internet e publicações comerciais ou governamentais.

O fácil acesso a dados abertos significa que o jornalismo de dados não precisa se limitar a cientistas de dados profissionais. Qualquer pessoa que tenha familiaridade com uma planilha pode fazer jornalismo investigativo para descobrir fatos ocultos. No entanto, isso também significa que a prática deve ter um processo bem definido para que a maior disseminação de usuários não dilua a eficácia do jornalismo investigativo.

Jornalismo de dados – Os principais passos

Conforme discutido acima, o jornalismo de dados precisa ser um processo bem pensado que envolve etapas-chave essenciais para executar o processo. Em um nível muito básico, o fluxo de trabalho afirma que as informações devem primeiro ser obtidas ou encontradas (ou ter sentido após a descoberta). Isso pode envolver o uso de ferramentas como SQL. Deve então ser analisado (o que pode exigir a correta terminologia e jargão técnico). Após isso, os dados devem ser visualizados para apresentar as informações coletadas em um formato pictórico para promover uma melhor digestão dos dados. Quando estiver pronto, pode ser baixado para o público ou partes interessadas necessárias. Este é o estágio final em que os fatos, relatórios e tendências são apresentados a um público maior na forma de uma notícia.

O estudo mais conhecido sobre o fluxo de trabalho do jornalismo de dados foi lançado em 2011 por Paul Bradshaw . Ele delineou seis fases diferentes sob uma “pirâmide invertida do jornalismo de dados”. Vejamos um fluxo de trabalho típico envolvendo jornalismo de dados nesta pirâmide invertida:

  1. Encontrar: Como obter as informações ou dados on-line
  2. Limpo: adicione filtros e lógica para transformar dados
  3. Visualize: Os dados transformados mostram resultados em forma de inferência, tendências, estatísticas ou padrões, na forma de um visual estático ou animado
  4. Publicar: Unindo os recursos visuais, para tecer uma história convincente
  5. Distribuir: compartilhar a história em vários canais de distribuição, como Internet, mídia social, smartphones ou tablets
  6. Medir: Monitore o consumo do conteúdo para visualizar tendências e tipo de usuários que o lêem.

Vamos agora explorar essas etapas com mais detalhes

Encontrar dados – A coleta de dados é o primeiro passo para o jornalismo investigativo. Desde fazer viagens de campo até descobrir a causa real de delitos criminais e estudar o impacto de um problema de longo prazo, há muitas maneiras de encontrar dados. Para encontrar os dados, primeiro você precisará determinar as fontes corretas. Se alguém já publicou sobre um problema em andamento que você está investigando, então faz sentido fazer a pesquisa secundária como ponto de partida. No entanto, se você estiver investigando algo sensível, talvez seja necessário ignorar boatos e rumores e realizar sua própria pesquisa imparcial e imparcial para encontrar os dados.

Tome-se o exemplo do polêmico trabalho de jornalismo investigativo realizado por um certo 'NH' em 1821 (sim, há quase 200 anos!). Mostrava uma lista de alunos matriculados em escolas de Manchester e Salford e as taxas pagas por eles. Usando a raspagem manual, o jornalista de dados tentou descobrir quantos estavam recebendo educação gratuita. Embora mostrasse quase 25.000 estudantes recebendo educação gratuita, os registros oficiais estimavam o número em apenas 8.000. Isso revelou uma falha enorme nas estatísticas oficiais coletadas pelos clérigos (antigos funcionários de entrada de dados). Este foi um caso clássico de encontrar dados que desencadearam uma ação.

Limpeza de dados – Normalmente, os dados de diferentes fontes estarão em formatos diferentes. Isso precisa ser limpo e normalizado para facilitar a análise futura. Por exemplo, ao fazer a extração de dados para peso entre crianças obesas, os dados dos EUA estarão em quilogramas, enquanto os dados do Reino Unido estarão em libras. Para facilitar a análise, eles precisarão ser limpos e consistentes com uma única unidade de medição.

Visualização de dados – Este é um link importante onde os dados passam de apenas números para uma representação visual que pode levar a inferências rápidas. Depois que os dados são colocados em planilhas em um formato significativo, eles passam por ferramentas de visualização de dados como OpenRefine e Tableau Public. Aqui está uma lista de ferramentas gratuitas de visualização de dados disponíveis para você.

Publicação – Por meio de um Sistema de Gerenciamento de Conteúdo, a visualização é publicada de forma estratégica, com base no público esperado.

Distribuição de dados – marketplaces de conteúdo especializados fornecem acesso a essa visualização investigativa. Por meio desse canal, outros podem pegar as histórias de dados e continuar sua própria linha de investigação.

Avaliando o impacto do jornalismo investigativo – Todo o objetivo de conduzir o jornalismo investigativo em profundidade é criar um impacto profundo. E como você sabe se sua história está criando um impacto? Claro, por ferramentas criadas especificamente para monitorar o impacto das histórias de dados.

Para assinar

Muitos estudos de caso apontam para o imenso impacto gerado pelo jornalismo investigativo usando extração de dados. O mais conhecido deles é a publicação do WikiLeaks de dados confidenciais de agências governamentais. A maneira como isso impactou as políticas públicas e de bem-estar no mais alto nível em países como os EUA fala muito da profunda influência do jornalismo investigativo.

Hoje não é mais suficiente coletar dados e obter insights. O insight precisa ser apoiado por uma visualização criativa, mas mais importante do que isso, deve ser apoiado por uma história sólida criada para apoiar seu ponto de vista. O jornalismo de dados, com a ajuda de coleta de dados, está sendo cada vez mais visto como uma ferramenta chave de geração de insights e está se tornando uma ajuda confiável para visualização de dados e reportagens de notícias apoiadas por dados.

Fique atento ao nosso próximo artigo sobre como precificar seus produtos corretamente.

Planejando adquirir dados da web? Nós estamos aqui para ajudar. Deixe-nos saber sobre suas necessidades.