Использование веб-скрейпинга для журналистских расследований

Опубликовано: 2016-09-09

Веб-скрапинг, как ценный инструмент для сбора данных и понимания, принес огромную пользу многим предприятиям в различных отраслевых вертикалях. От здравоохранения до автомобилестроения, от наук о жизни до государственных учреждений, нет ни одной вертикали, которая осталась бы нетронутой влиянием и влиянием парсинга веб- страниц. Однако интересно отметить, как веб-скрапинг и извлечение данных используются для новых форм приложений. Одним из таких захватывающих направлений применения научных методов извлечения данных является журналистское расследование.

Что такое журналистское расследование?

Журналистские расследования являются важной частью репортажей о фактах. Это область, в которой журналист будет глубоко исследовать одну тему, особенно те, которые связаны с правопорядком или деятельностью, которая носит преступный характер. Что интересно отметить, так это количество усилий и времени, которые журналист потратит на эту единственную тему. Расследование может занять недели, месяцы или даже годы, чтобы дать желаемый результат после исследования и подготовки подробного отчета о расследовании.

Использование веб-скрейпинга для журналистских расследований

Важнейшим аспектом журналистских расследований являются исследования, и именно здесь высококачественный анализ данных помогает улучшить общее качество итогового репортажа. Поскольку большая часть данных, подлежащих исследованию, скрыта или не видна на виду, журналисту требуется много усилий, чтобы отслаивать слой за слоем то, что ему / ей предоставляется, чтобы выявить правильные факты. Несмотря на то, что из пресс-релизов, комментариев, пресс-конференций и корпоративных объявлений можно получить значительный объем данных, настоящий журналист-расследователь не станет полагаться только на эти факты. Он / она будет копать глубже, чтобы раскрыть темные истины, скрытые за преимущественно радужной картиной, представленной широкой публике. Он / она будет использовать интеллектуальный анализ данных для выполнения этой сложной задачи.

Это и есть основа журналистики данных, т. е. усиление журналистских расследований с помощью данных.

Что такое журналистика данных?

Термин «журналистика, управляемая данными» был придуман в 2009 году. Однако его практическое применение так же старо, как и сама концепция данных. Трудно поверить? Отчет об условиях военного времени , с которыми пришлось столкнуться британским войскам в 1858 году, показывает, как красиво история была сплетена из фактов и данных, чтобы представить убедительную визуализацию, которая побуждает лидеров к незамедлительным действиям. И да – отчету более 150 лет!

Чтобы определить журналистику данных, это журналистская практика, используемая сегодня в эпоху стремительного роста данных. На практике журналист анализирует данные и делает выводы из огромных наборов данных. Результатом этой практики является создание наполненной фактами новости, основанной на данных, а не на слухах. Вы можете спросить, почему эта практика набирает обороты в последнее время, в то время как создание новостных сюжетов существует уже несколько десятилетий. Ответ прост: в наше время создается, хранится, обрабатывается и потребляется много данных. Основные компоненты, лежащие в основе журналистики данных, включают:

  • Доступность инструментов с открытым исходным кодом, которые снижают стоимость компьютерного анализа данных и генерации идей.
  • Открытый доступ к данным и опубликованному контенту, который помог снять ограничения на доступ (например, плата за доступ или абонентская плата) или на его использование (например, ограничения авторского права и лицензирования).
  • Концепция открытых данных , которая делает большую часть данных доступными бесплатно по таким каналам, как Интернет, торговые или правительственные публикации.

Легкий доступ к открытым данным означает, что журналистика данных не должна ограничиваться профессиональными учеными. Любой, кто знаком с электронными таблицами, может провести журналистское расследование, чтобы раскрыть скрытые факты. Однако это также означает, что практика должна иметь четко определенный процесс, чтобы более широкий круг пользователей не ослаблял эффективность журналистских расследований.

Журналистика данных – ключевые шаги

Как обсуждалось выше, журналистика данных должна быть хорошо продуманным процессом, который включает в себя ключевые шаги, необходимые для его выполнения. На самом базовом уровне рабочий процесс гласит, что информация должна быть сначала получена или найдена (или осмыслена после обнаружения). Это может включать использование таких инструментов, как SQL. Затем его необходимо проанализировать (для этого может потребоваться правильное использование терминологии и технического жаргона). После этого данные должны быть визуализированы, чтобы представить собранную информацию в графическом формате, чтобы способствовать лучшему усвоению данных. Когда это будет готово, его можно загрузить для необходимой аудитории или заинтересованных сторон. Это заключительный этап, на котором факты, отчеты и тенденции доводятся до широкой аудитории в форме новостей.

Самое известное исследование рабочего процесса журналистики данных было опубликовано в 2011 году Полом Брэдшоу . В нем было выделено шесть различных этапов «перевернутой пирамиды журналистики данных». Давайте посмотрим на типичный рабочий процесс, связанный с журналистикой данных, в этой перевернутой пирамиде:

  1. Найти: поиск информации или данных в Интернете.
  2. Очистка: добавьте фильтры и логику для преобразования данных.
  3. Визуализация: преобразованные данные затем показывают результаты в виде выводов, тенденций, статистики или закономерностей в виде статического или анимированного визуального изображения.
  4. Публикация: объединение визуальных эффектов для создания захватывающей истории.
  5. Распространение: распространение истории по различным каналам распространения, таким как Интернет, социальные сети, смартфоны или планшеты.
  6. Мера: отслеживайте потребление контента, чтобы отслеживать тенденции и типы пользователей, читающих его.

Теперь мы рассмотрим эти шаги более подробно.

Поиск данных . Сбор данных — это первый шаг к журналистским расследованиям. От выездов на места до выяснения фактической причины преступного правонарушения и изучения последствий долгосрочной проблемы существует множество способов поиска данных. Чтобы найти данные, вам сначала нужно определить правильные источники. Если кто-то уже публиковал текущую проблему, которую вы исследуете, имеет смысл провести вторичное исследование в качестве отправной точки. Однако, если вы расследуете что-то конфиденциальное, вам, возможно, придется обойти слухи и слухи и провести собственное беспристрастное и непредвзятое исследование, чтобы найти данные.

Возьмем в качестве примера скандальное журналистское расследование, проведенное неким «NH» в 1821 году (да, почти 200 лет назад!). На нем был список студентов, зачисленных в школы в Манчестере и Солфорде, и уплаченная ими плата. Используя ручное сканирование, журналист данных попытался выяснить, сколько из них получают бесплатное образование. В то время как это показало, что почти 25000 студентов получают бесплатное образование, официальные отчеты привязывают число только к 8000. Это выявило огромный недостаток в официальной статистике, собранной священнослужителями (старые клерки по вводу данных). Это был классический случай поиска данных, которые инициировали действие.

Очистка данных . Обычно данные из разных источников будут в разных форматах. Это необходимо очистить и нормализовать для облегчения будущего анализа. Например, при извлечении данных о весе среди детей с ожирением данные по США будут в килограммах, а данные по Великобритании — в фунтах. Для простоты анализа их необходимо очистить и привести в соответствие с одной единицей измерения.

Визуализация данных — это важная связь, по которой данные переходят от просто чисел к визуальному представлению, которое может привести к быстрым выводам. Как только данные помещаются в электронные таблицы в значимом формате, они передаются через инструменты визуализации данных, такие как OpenRefine и Tableau Public. Вот список бесплатных инструментов визуализации данных, доступных вам.

Публикация — с помощью системы управления контентом визуализация публикуется стратегически, исходя из ожидаемой читательской аудитории.

Распространение данных . Специализированные торговые площадки предоставляют доступ к этой исследовательской визуализации. По этому каналу другие могут собирать истории с данными и продолжать собственное расследование.

Оценка воздействия журналистских расследований . Весь смысл проведения углубленных журналистских расследований заключается в том, чтобы произвести глубокое воздействие. И как узнать, оказывает ли ваша история влияние? Разумеется, с помощью инструментов, которые созданы специально для мониторинга влияния историй данных.

Подписать

Многие тематические исследования указывают на огромное влияние журналистских расследований, использующих извлечение данных. Наиболее известным из них является публикация WikiLeaks секретных данных государственных органов. То, как это повлияло на общественную политику и политику социального обеспечения на самом высоком уровне в таких странах, как США, красноречиво говорит о глубоком влиянии журналистских расследований.

Сегодня уже недостаточно собирать данные и делать выводы. Понимание должно быть подкреплено творческой визуализацией, но, что более важно, оно должно быть подкреплено солидной историей, созданной для поддержки вашей точки зрения. Журналистика данных с помощью парсинга данных все чаще рассматривается как ключевой инструмент для получения информации и становится надежным помощником для визуализации данных и написания новостей на основе данных.

Следите за нашей следующей статьей о правильном ценообразовании на ваши продукты.

Планируете получать данные из Интернета? Мы здесь, чтобы помочь. Дайте нам знать о ваших требованиях.