使用 Web Scraping 進行調查性新聞
已發表: 2016-09-09作為一種有價值的數據和洞察力生成工具,網絡抓取為不同行業垂直領域的許多企業增加了巨大的價值。 從醫療保健到汽車,從生命科學到政府機構,沒有一個垂直領域沒有受到網絡抓取的影響和影響。 然而,值得注意的是網絡抓取和數據提取被用於更新形式的應用程序的方式。 應用科學數據提取方法的一個令人興奮的途徑是在調查性新聞領域。
什麼是調查性新聞?
調查性新聞是事實報導的重要組成部分。 這是記者深入調查一個話題的領域,特別是那些與法律和秩序或犯罪性質的活動有關的領域。 值得注意的是記者將在這一單一主題上花費的精力和時間。 在研究和準備詳細的調查報告後,調查可能需要數週、數月甚至數年才能產生預期的結果。

調查性新聞的一個關鍵方面是研究,這就是高質量數據挖掘有助於提高最終報導的整體質量的地方。 由於要研究的大部分數據在普通視圖中都是隱藏的或不可見的,因此記者需要付出很多努力才能將提供給他/她的內容一層一層地剝離以發現正確的事實。 雖然通過新聞稿、評論、新聞發布會和公司公告可以獲得大量數據,但真正的藍色調查記者不會僅僅依賴這些事實。 他/她將深入挖掘,以揭開隱藏在向公眾展示的大多是美好的畫面背後的黑暗真相。 他/她將使用數據挖掘來完成這項艱鉅的任務。
這正是數據新聞的支柱——即藉助數據推動調查性新聞。
什麼是數據新聞?
數據驅動新聞這個術語是在 2009 年創造的。然而,它的實際應用與數據本身的概念一樣古老。 覺得難以置信? 這份關於英國軍隊在 1858 年不得不面對的戰時條件的報告顯示了一個故事是多麼美妙地圍繞事實和數據編織,呈現出令人信服的可視化效果,從而引起領導人的迅速行動。 是的——這份報告已有 150 多年的歷史了!
為了定義數據新聞,它是當今數據爆炸時代使用的新聞實踐。 這種做法讓記者分析數據並從龐大的數據集中產生見解。 這種做法的結果是幫助創建一個充滿事實的新聞故事,它依賴於數據而不是傳聞。 您可能會問,為什麼這種做法在近些年風靡一時,而創建新聞故事卻已經存在了幾十年。 答案很簡單——當今時代,大量數據正在生成、存儲、管理和使用。 推動數據新聞的主要組成部分包括
- 降低基於計算機的數據分析和洞察力生成成本的開源工具的可用性
- 開放訪問有助於消除訪問限制(例如訪問費或訂閱費)或其使用限制(例如版權和許可限制)的數據和已發佈內容
- 開放數據的概念,它使大多數數據在互聯網和貿易或政府出版物等渠道上免費提供。
對開放數據的輕鬆訪問意味著數據新聞不必局限於專業的數據科學家。 任何熟悉電子表格的人都可以進行調查性新聞以發現隱藏的事實。 然而,這也意味著這種做法應該有一個明確的流程,這樣用戶的更廣泛傳播不會削弱調查性新聞的效力。
數據新聞——關鍵步驟
如上所述,數據新聞需要是一個經過深思熟慮的過程,其中涉及執行過程所必需的關鍵步驟。 在一個非常基本的層面上,工作流規定必須首先獲取或找到信息(或在找到後才有意義)。 這可能涉及使用 SQL 等工具。 然後必須對其進行分析(這可能需要正確使用術語和技術術語)。 發布此信息後,必須將數據可視化,以圖片格式呈現收集到的信息,以促進更好地消化數據。 一旦準備就緒,就可以將其下載給所需的受眾或利益相關者。 這是將事實、報告和趨勢以新聞故事的形式呈現給更多受眾的最後階段。
關於數據新聞工作流程的最著名的研究由Paul Bradshaw於 2011 年發布。 它概述了“數據新聞倒金字塔”下的六個不同階段。 讓我們看一下這個倒金字塔中涉及數據新聞的典型工作流程:

- 查找:在線獲取信息或數據
- Clean:添加過濾器和邏輯來轉換數據
- 可視化:轉換後的數據然後以推理、趨勢、統計或模式的形式顯示結果,以靜態或動畫視覺的形式
- 發布:結合視覺效果,編織引人入勝的故事
- 分發:在互聯網、社交媒體、智能手機或平板電腦等各種分發渠道上分享故事
- 措施:監控內容的消費以查看趨勢和閱讀它的用戶類型。
我們現在將更詳細地探討這些步驟
尋找數據——收集數據是調查性新聞的第一步。 從實地考察到找出犯罪行為的真正原因,再到研究長期問題的影響,有很多方法可以找到數據。 為了找到數據,您首先需要確定正確的來源。 如果有人已經發表了關於您碰巧正在調查的正在進行的問題,那麼將二次研究作為起點是有意義的。 但是,如果您正在調查一些敏感的事情,那麼您可能需要繞過小道消息和謠言,並進行自己的公正和公正的研究來查找數據。
以 1821 年某個“NH”進行的有爭議的調查性新聞工作為例(是的,差不多 200 年前!)。 它顯示了在曼徹斯特和索爾福德的學校就讀的學生名單以及他們支付的費用。 通過手動抓取,數據記者試圖弄清楚有多少人正在接受免費教育。 雖然它顯示有近 25000 名學生接受免費教育,但官方記錄顯示這個數字僅為 8000 人。這揭示了神職人員(過去的數據錄入員)收集的官方統計數據存在巨大缺陷。 這是尋找觸發行動的數據的經典案例。
數據清理——通常,來自不同來源的數據將採用不同的格式。 這需要進行清理和標準化,以便於將來的分析。 例如,在提取肥胖兒童體重的數據時,美國的數據將以千克為單位,而英國的數據將以磅為單位。 為了便於分析,這些將需要清洗並與單個測量單位保持一致。
數據可視化——這是一個重要的環節,數據從數字轉變為可以快速推斷的可視化表示。 將數據以有意義的格式放入電子表格後,就會通過 OpenRefine 和 Tableau Public 等數據可視化工具進行傳遞。 以下是可供您使用的免費數據可視化工具列表。
發布——使用內容管理系統,可視化根據預期的讀者群戰略性地發布。
數據分發——專門的內容市場提供對這種調查可視化的訪問。 通過這個渠道,其他人可以獲取數據故事並進行自己的調查。
評估調查性新聞的影響——進行深入調查性新聞的全部目的是產生深遠的影響。 你怎麼知道你的故事是否正在產生影響? 當然,通過專門為監控數據故事的影響而創建的工具。
註銷
許多案例研究指出了使用數據提取的調查性新聞帶來的巨大影響。 其中最著名的是維基解密公佈的機密政府機構數據。 它影響美國等國家最高級別的公共和福利政策的方式,充分說明了調查性新聞的深遠影響。
今天,收集數據和獲得洞察力已經不夠了。 洞察力需要有創意的可視化支持,但更重要的是,它必須有一個堅實的故事來支持你的觀點。 在數據抓取的幫助下,數據新聞業越來越多地被視為一種關鍵的洞察力生成工具,並且正在成為數據可視化和數據支持的新聞報導報導的可靠助手。
請繼續關注我們關於正確定價產品的下一篇文章。
計劃從網絡獲取數據? 我們是來幫忙的。 讓我們知道您的要求。
