調査ジャーナリズムのための Web スクレイピングの使用
公開: 2016-09-09貴重なデータと洞察を生成するツールとして、Web スクレイピングはさまざまな業種の多くの企業に計り知れない価値をもたらしました。 ヘルスケアから自動車、ライフ サイエンスから政府機関まで、Web スクレイピングの影響を受けていない分野はありません。 ただし、興味深いのは、Web スクレイピングとデータ抽出が新しい形式のアプリケーションに使用されていることです。 データ抽出の科学的方法を適用するそのようなエキサイティングな手段の 1 つは、調査ジャーナリズムの分野です。
調査報道とは?
調査ジャーナリズムは、事実報告の重要な部分です。 ジャーナリストが 1 つのトピック、特に法や秩序、犯罪行為に関連するトピックを深く調査する分野です。 興味深いのは、ジャーナリストがこの 1 つのトピックに費やす労力と時間です。 詳細な調査レポートを調査して準備した後、調査が望ましい結果をもたらすまでに、数週間、数か月、さらには数年かかる場合があります。

調査ジャーナリズムの重要な側面は調査であり、これは高品質のデータ マイニングが最終レポートの全体的な品質の向上に役立つ場所です。 調査対象のデータのほとんどは隠されているか、目に見えないため、ジャーナリストは提供された情報の層を次々と剥がして正しい事実を明らかにするのに多大な労力を要します。 プレスリリース、コメント、記者会見、企業発表を通じてかなりのデータが入手可能ですが、真のブルー調査ジャーナリストはこれらの事実だけに頼ることはありません。 彼/彼女は、一般大衆に提示されたほとんどバラ色の写真の背後に隠されている暗い真実を明らかにするために、より深く掘り下げます. 彼/彼女は、この困難なタスクを達成するためにデータ マイニングを使用します。
これはまさにデータ ジャーナリズムのバックボーンです。つまり、データの助けを借りて調査ジャーナリズムを強化します。
データジャーナリズムとは?
データ ドリブン ジャーナリズムという用語は 2009 年に造語されました。しかし、その実用化はデータ自体の概念と同じくらい古い時代です。 信じがたいと思いませんか? 1858 年にイギリス軍が直面しなければならなかった戦時中の状況に関する報告書は、事実とデータに基づいて物語がいかに美しく織り上げられ、説得力のある視覚化を提示し、指導者の迅速な行動を引き出すかを示しています。 そしてそうです – レポートは 150 年以上前のものです!
データ ジャーナリズムを定義すると、今日のデータ爆発の時代に使用されるジャーナリズムの実践です。 この実践では、ジャーナリストがデータを分析し、膨大なデータ セットから洞察を生み出すのを見ています。 この実践の結果は、伝聞ではなくデータに依存する事実に満ちたニュース記事を作成するのに役立ちます。 ニュース記事の作成が何十年も前から行われているのに、なぜこの慣行が最近非常に勢いを増しているのかと疑問に思われるかもしれません。 答えは簡単です。今日では、大量のデータが生成、保存、整理、消費されています。 データ ジャーナリズムを推進してきた主な要素には、
- コンピュータベースのデータ分析と洞察生成のコストを削減するオープンソースツールの可用性
- アクセスの制限 (アクセス料金や購読料など) またはその使用 (著作権やライセンスの制限など) の制限を取り除くのに役立ったデータや公開コンテンツへのオープン アクセス
- ほとんどのデータをインターネットや業界誌、政府刊行物などのチャネルで自由に利用できるようにするオープン データの概念。
オープン データに簡単にアクセスできるということは、データ ジャーナリズムをプロのデータ サイエンティストに限定する必要がないことを意味します。 スプレッドシートに慣れている人なら誰でも、調査ジャーナリズムを実行して隠された事実を明らかにすることができます。 ただし、これはまた、ユーザーの広範な広がりによって調査ジャーナリズムの有効性が薄まらないように、プラクティスには明確に定義されたプロセスが必要であることも意味します。
データ ジャーナリズム – 重要なステップ
前述のように、データ ジャーナリズムは、プロセスの実行に不可欠な重要なステップを含む、よく考え抜かれたプロセスである必要があります。 非常に基本的なレベルでは、ワークフローは、情報が最初にソースまたは検索される必要がある (または検索後に意味を成す) 必要があることを示しています。 これには、SQL などのツールの使用が含まれる場合があります。 次に、それを分析する必要があります (専門用語や専門用語を正しく理解する必要がある場合があります)。 これを投稿して、データのより良い消化を促進するために、収集された情報を画像形式で提示するためにデータを視覚化する必要があります。 準備ができたら、必要な対象者または利害関係者にダウンロードできます。 これは、事実、レポート、および傾向がニュース記事の形でより多くの視聴者に提供される最終段階です.
データ ジャーナリズムのワークフローに関する最も有名な研究は、2011 年にPaul Bradshawによって発表されました。 それは、「データ ジャーナリズムの逆ピラミッド」の下で 6 つの異なるフェーズを概説しました。 この逆ピラミッド型のデータ ジャーナリズムを含む典型的なワークフローを見てみましょう。

- 検索: 情報またはデータをオンラインで入手する
- クリーン: フィルタとロジックを追加してデータを変換します
- 視覚化: 変換されたデータは、結果を推論、傾向、統計、またはパターンの形式で、静的またはアニメーション化されたビジュアルの形式で表示します。
- 公開:ビジュアルをつなぎ合わせて、説得力のあるストーリーを紡ぐ
- 配信: インターネット、SNS、スマートフォン、タブレットなどのさまざまな配信チャネルでストーリーを共有する
- 測定: コンテンツの消費を監視して、コンテンツを読んでいるユーザーの傾向とタイプを確認します。
ここで、これらの手順をより詳細に検討します
データの検索 – データの収集は、調査ジャーナリズムへの第一歩です。 フィールドトリップから、犯罪行為の実際の原因の発見、長期的な問題の影響の研究まで、データを見つける方法はたくさんあります。 データを見つけるには、まず適切なソースを決定する必要があります。 あなたがたまたま調査している進行中の問題について誰かがすでに公開している場合は、二次調査を出発点とすることは理にかなっています. ただし、機密性の高いものを調査している場合は、グレープバインや噂を迂回して、公平で偏りのない独自の調査を実施してデータを見つける必要がある場合があります。
ある「NH」が 1821 年に行った物議を醸す調査ジャーナリズムの例を見てみましょう(そう、ほぼ 200 年前のことです!)。 マンチェスターとサルフォードの学校に在籍している生徒のリストと、彼らが支払った授業料が表示されました。 データ ジャーナリストは手動スクレイピングを使用して、無料の教育を受けている人の数を把握しようとしました。 25,000 人近くの学生が無料の教育を受けていることが示されていましたが、公式記録ではその数はわずか 8,000 人でした。これにより、聖職者 (昔のデータ入力係) によって収集された公式統計に大きな欠陥があることが明らかになりました。 これは、アクションをトリガーするデータを見つける典型的なケースです。
データクリーニング– 通常、異なるソースからのデータは異なる形式になります。 これは、将来の分析を容易にするために、クリーニングして正規化する必要があります。 たとえば、肥満の子供の体重のデータ抽出を行う場合、米国のデータはキログラム単位、英国のデータはポンド単位になります。 分析を容易にするために、これらを洗浄し、単一の測定単位と一致させる必要があります。
データの視覚化– これは、データが単なる数値から、迅速な推論につながる視覚的表現に移行する重要なリンクです。 データが意味のある形式でスプレッドシートに配置されると、OpenRefine や Tableau Public などのデータ視覚化ツールに渡されます。 以下は、利用可能な無料のデータ視覚化ツールのリストです。
発行– コンテンツ管理システムを使用して、ビジュアライゼーションは予想される読者層に基づいて戦略的に発行されます。
データ配布– 専門のコンテンツ マーケットプレイスは、この調査の視覚化へのアクセスを提供します。 このチャネルを通じて、他のユーザーがデータ ストーリーを入手し、独自の調査を進めることができます。
調査ジャーナリズムの影響を評価する– 綿密な調査ジャーナリズムを実施することの全体的なポイントは、深刻な影響を生み出すことです。 そして、あなたのストーリーが影響を与えているかどうかをどうやって知るのでしょうか? もちろん、データストーリーの影響を監視するために特別に作成されたツールによって。
サインオフするには
多くのケース スタディは、データ抽出を使用した調査ジャーナリズムによってもたらされる計り知れない影響を指摘しています。 これらの中で最もよく知られているのは、機密の政府機関データのWikiLeaksの公開です。 それが米国のような国で最高レベルの公共および福祉政策に影響を与えた方法は、調査ジャーナリズムの深い影響を物語っています.
今日では、データを収集して洞察を引き出すだけでは十分ではありません。 洞察は創造的な視覚化によって裏付けられる必要がありますが、それよりも重要なのは、あなたの視点をサポートするために作成された堅実なストーリーによって裏付けられる必要があるということです。 データ スクレイピングを利用したデータ ジャーナリズムは、ますます重要な洞察を生み出すツールと見なされるようになり、データの視覚化とデータに裏付けられたニュース記事の報道において信頼できる支援になりつつあります。
製品の適切な価格設定に関する次の記事にご期待ください。
Web からデータを取得する予定はありますか? 私たちは助けるためにここにいます。 お客様の要件をお知らせください。
