大數據時代的數據質量

已發表: 2020-12-23
目錄顯示
數據質量維度
一個)。 數據準確性
乙)。 數據可用性
C)。 完整性
D)。 數據一致性
E)。 時效性
您如何構建這樣的系統?
一個)。 可靠性
乙)。 覆蓋面積
C)。 構建系統的不同方法
項目特定的測試框架
通用測試框架
解決方案

當你聽到數據質量這個詞時,你腦海中浮現的第一個詞是什麼? 很難用真正客觀的術語來真正定義它。 為什麼我們需要它但是? 僅僅因為可用的數據量很大。

數據的“大小”不再是 TB,而是 PB (1PB = 210TB)、EB (1EB = 210PB) 和 ZB (1ZB = 210EB)。 根據 IDC 的“數字宇宙”預測,到 2020 年已經產生了 40 ZB 的數據。但質量確實在哪裡。

這在數據質量方面非常有效。 正如我們所提到的,好的數據確實不是那麼容易描述的。 數據質量是您的數據服務於由幾個特徵定義的預期目的的能力。

快速的在線搜索將為您提供多種定義。 只要您可以使用該數據來幫助您的業務決策,它就具有良好的質量。 質量差的數據會增加您的工作量而不是幫助它。 想像一下,您根據兩年前進行的二次研究做出了某些營銷決策,這有什麼好處?

數據質量維度

直覺上你可能會說實時數據是最好的數據。 不完全正確。 雖然數據僅與“新鮮”一樣好(因為我們是在以曲速移動還是什麼),但訪問數據質量還有其他決定因素,我們不能忽視。

數據質量維度的散佈特徵對於更好地理解數據質量很重要,因為數據質量維度不能孤立地工作。 其中一些如準確性、可靠性、及時性、完整性和一致性維度可以分為內部視圖和外部視圖。 這些分類中的每一個都可以進一步分為數據相關和系統相關的維度。 或者,數據質量維度可以分為四類; 內在的、上下文的、代表性的和可訪問性的。

一個)。 數據準確性

該維度已插入語義準確性和句法準確性。 後者是指價值與相關定義域元素的接近程度,而語義準確性是指價值與實際世界價值的接近程度。

乙)。 數據可用性

數據民主化是一把雙刃劍。 但是,如果每個需要處理數據的人都無法訪問數據,那麼數據有什麼用呢?

C)。 完整性

數據清理工具會在每個字段中搜索缺失值,它們會填充這些缺失值,從而為您提供全面的數據饋送。 但是,數據也應該表示空值。 只要我們能確定數據集中出現空值的原因,空值也應該被賦予相同的權重。

D)。 數據一致性

一致的數據反映了一種狀態,其中相同的數據在整個系統中代表相同的值。 只要它們表示相同的值,所有分母都應處於平等地位。 通常從不同來源整合數據以收集信息並揭示洞察力。 但是,不同的來源有不同的架構和命名約定,集成後的不一致是可以預料的。 考慮到要集成的數據的龐大數量和種類,一致性問題應該在集成的早期階段通過在公司內部定義數據標準和數據策略來管理。

E)。 時效性

數據及時性被定義為過時的變量。 過時屬性包括年齡和波動性作為衡量標準。 但是,如果沒有應用程序的上下文,則不應考慮這一點。 自然,最新的數據更有可能被認為是高質量的數據,但它並不優先於相關性。

準確性、完整性、一致性和存在性等數據質量維度與完整性屬性的分類有關。 它可以被描述為數據映射到數據用戶興趣的與生俱來的能力。 與表示一致性相比,完整性屬性缺乏不一致是從數據價值的角度定義的,而不僅僅是數據本身的格式或表示。

Web Scraping 作為監控數據質量最可行的解決方案

網絡抓取使用爬蟲工具在網絡上搜索所需信息。 它可以與自動化質量保證系統集成,以確保所有維度的數據質量。

您如何構建這樣的系統?

在更廣泛的層面上,系統正試圖衡量您的數據的完整性以及您抓取的數據的保護傘。

一個)。 可靠性

一個)。 確保抓取的數據字段取自正確的頁面元素。

乙)。 收集是不夠的。 格式化同樣重要。 確保抓取的數據已在收集後進行處理,並以收集階段要求的格式呈現。

乙)。 覆蓋面積

一個)。 每個可用的項目都必須被抓取,這就是網絡抓取的本質。

乙)。 每個項目的每個數據字段也必須被覆蓋。

C)。 構建系統的不同方法

項目特定的測試框架

顧名思義,您從事的每個網絡抓取項目的每個自動化測試框架都將是絕對定制的。 如果需求是分層的,並且您的爬蟲功能高度基於規則,並且具有字段相互依賴性,則需要這種方法。

通用測試框架

另一種選擇是創建一個通用框架來滿足您的所有要求。 如果網絡抓取是所有業務決策的核心並且定制部分不可行,則此方法可行。 該框架還允許為任何項目快速添加質量保證層。

解決方案

Web 抓取服務是管理數據完整性的最佳選擇。 它帶有手動和自動圖層。 它還擺脫了所有 HTML 標記以獲取“乾淨”數據。 像 PromptCloud 這樣的企業網絡抓取服務為全球數百個客戶維護數據的數據質量以及他們採購的 zettabytes 數據。 我們還會在整個過程中為您提供幫助,我們的客戶支持團隊隨時待命。

仍然不相信數據質量至關重要? 這是一個3.1 萬億美元的理由。 2016 年,僅在美國,劣質數據的年度成本就高達 3.1 萬億美元。

如果你喜歡閱讀這篇文章,就像我們喜歡寫這篇文章一樣,請分享這份愛。 我們認為您可能同樣喜歡閱讀本文