使用 Web Scraping 进行调查性新闻

已发表: 2016-09-09

作为一种有价值的数据和洞察力生成工具,网络抓取为不同行业垂直领域的许多企业增加了巨大的价值。 从医疗保健到汽车,从生命科学到政府机构,没有一个垂直领域没有受到网络抓取的影响和影响然而,值得注意的是网络抓取和数据提取被用于更新形式的应用程序的方式。 应用科学数据提取方法的一个令人兴奋的途径是在调查性新闻领域。

什么是调查性新闻?

调查性新闻是事实报道的重要组成部分。 这是记者深入调查一个话题的领域,特别是那些与法律和秩序或犯罪性质的活动有关的领域。 值得注意的是记者将在这一单一主题上花费的精力和时间。 在研究和准备详细的调查报告后,调查可能需要数周、数月甚至数年才能产生预期的结果。

使用 Web Scraping 进行调查性新闻

调查性新闻的一个关键方面是研究,这就是高质量数据挖掘有助于提高最终报道的整体质量的地方。 由于要研究的大部分数据在普通视图中都是隐藏的或不可见的,因此记者需要付出很多努力才能将提供给他/她的内容一层一层地剥离以发现正确的事实。 虽然通过新闻稿、评论、新闻发布会和公司公告可以获得大量数据,但真正的蓝色调查记者不会仅仅依赖这些事实。 他/她将深入挖掘,以揭开隐藏在向公众展示的大多是美好的画面背后的黑暗真相。 他/她将使用数据挖掘来完成这项艰巨的任务。

这正是数据新闻的支柱——即借助数据推动调查性新闻。

什么是数据新闻?

数据驱动新闻这个术语是在 2009 年创造的。然而,它的实际应用与数据本身的概念一样古老。 觉得难以置信? 这份关于英国军队在 1858 年不得不面对的战时条件的报告显示了一个故事是多么美妙地围绕事实和数据编织,呈现出令人信服的可视化效果,从而引起领导人的迅速行动。 是的——这份报告已有 150 多年的历史了!

为了定义数据新闻,它是当今数据爆炸时代使用的新闻实践。 这种做法让记者分析数据并从庞大的数据集中产生见解。 这种做法的结果是帮助创建一个充满事实的新闻故事,它依赖于数据而不是传闻。 您可能会问,为什么这种做法在近些年风靡一时,而创建新闻故事却已经存在了几十年。 答案很简单——当今时代,大量数据正在生成、存储、管理和使用。 推动数据新闻的主要组成部分包括

  • 降低基于计算机的数据分析和洞察力生成成本的开源工具的可用性
  • 开放访问有助于消除访问限制(例如访问费或订阅费)或其使用限制(例如版权和许可限制)的数据和已发布内容
  • 开放数据的概念,它使大多数数据在互联网和贸易或政府出版物等渠道上免费提供。

对开放数据的轻松访问意味着数据新闻不必局限于专业的数据科学家。 任何熟悉电子表格的人都可以进行调查性新闻以发现隐藏的事实。 然而,这也意味着这种做法应该有一个明确的流程,这样用户的更广泛传播不会削弱调查性新闻的效力。

数据新闻——关键步骤

如上所述,数据新闻需要是一个经过深思熟虑的过程,其中涉及执行过程所必需的关键步骤。 在一个非常基本的层面上,工作流规定必须首先获取或找到信息(或在找到后才有意义)。 这可能涉及使用 SQL 等工具。 然后必须对其进行分析(这可能需要正确使用术语和技术术语)。 发布此信息后,必须将数据可视化,以图片格式呈现收集到的信息,以促进更好地消化数据。 一旦准备就绪,就可以将其下载给所需的受众或利益相关者。 这是将事实、报告和趋势以新闻故事的形式呈现给更多受众的最后阶段。

关于数据新闻工作流程的最著名的研究由Paul Bradshaw于 2011 年发布 它概述了“数据新闻倒金字塔”下的六个不同阶段。 让我们看一下这个倒金字塔中涉及数据新闻的典型工作流程:

  1. 查找:在线获取信息或数据
  2. Clean:添加过滤器和逻辑来转换数据
  3. 可视化:转换后的数据然后以推理、趋势、统计或模式的形式显示结果,以静态或动画视觉的形式
  4. 发布:结合视觉效果,编织引人入胜的故事
  5. 分发:在互联网、社交媒体、智能手机或平板电脑等各种分发渠道上分享故事
  6. 措施:监控内容的消费以查看趋势和阅读它的用户类型。

我们现在将更详细地探讨这些步骤

寻找数据——收集数据是调查性新闻的第一步。 从实地考察到找出犯罪行为的真正原因,再到研究长期问题的影响,有很多方法可以找到数据。 为了找到数据,您首先需要确定正确的来源。 如果有人已经发表了关于您碰巧正在调查的正在进行的问题,那么将二次研究作为起点是有意义的。 但是,如果您正在调查一些敏感的事情,那么您可能需要绕过小道消息和谣言,并进行自己的公正和公正的研究来查找数据。

以 1821 年某个“NH”进行的有争议的调查性新闻工作为例(是的,差不多 200 年前!)。 它显示了在曼彻斯特和索尔福德的学校就读的学生名单以及他们支付的费用。 通过手动抓取,数据记者试图弄清楚有多少人正在接受免费教育。 虽然它显示有近 25000 名学生接受免费教育,但官方记录显示这个数字仅为 8000 人。这揭示了神职人员(过去的数据录入员)收集的官方统计数据存在巨大缺陷。 这是寻找触发行动的数据的经典案例。

数据清理——通常,来自不同来源的数据将采用不同的格式。 这需要进行清理和标准化,以便于将来的分析。 例如,在提取肥胖儿童体重的数据时,美国的数据将以千克为单位,而英国的数据将以磅为单位。 为了便于分析,这些将需要清洗并与单个测量单位保持一致。

数据可视化——这是一个重要的环节,数据从数字转变为可以快速推断的可视化表示。 将数据以有意义的格式放入电子表格后,就会通过 OpenRefine 和 Tableau Public 等数据可视化工具进行传递。 以下是可供您使用的免费数据可视化工具列表。

发布——使用内容管理系统,可视化根据预期的读者群战略性地发布。

数据分发——专门的内容市场提供对这种调查可视化的访问。 通过这个渠道,其他人可以获取数据故事并进行自己的调查。

评估调查性新闻的影响——进行深入调查性新闻的全部目的是产生深远的影响。 你怎么知道你的故事是否正在产生影响? 当然,通过专门为监控数据故事的影响而创建的工具。

注销

许多案例研究指出了使用数据提取的调查性新闻带来的巨大影响。 其中最著名的是维基解密公布的机密政府机构数据。 它影响美国等国家最高级别的公共和福利政策的方式,充分说明了调查性新闻的深远影响。

今天,收集数据和获得洞察力已经不够了。 洞察力需要有创意的可视化支持,但更重要的是,它必须有一个坚实的故事来支持你的观点。 在数据抓取的帮助下,数据新闻业越来越多地被视为一种关键的洞察力生成工具,并且正在成为数据可视化和数据支持的新闻报道报道的可靠助手。

请继续关注我们关于正确定价产品的下一篇文章。

计划从网络获取数据? 我们是来帮忙的。 让我们知道您的要求。