大数据时代的数据质量
已发表: 2020-12-23当你听到数据质量这个词时,你脑海中浮现的第一个词是什么? 很难用真正客观的术语来真正定义它。 为什么我们需要它但是? 仅仅因为可用的数据量很大。
数据的“大小”不再是 TB,而是 PB (1PB = 210TB)、EB (1EB = 210PB) 和 ZB (1ZB = 210EB)。 根据 IDC 的“数字宇宙”预测,到 2020 年已经产生了 40 ZB 的数据。但质量确实在哪里。
这在数据质量方面非常有效。 正如我们所提到的,好的数据确实不是那么容易描述的。 数据质量是您的数据服务于由几个特征定义的预期目的的能力。
快速的在线搜索将为您提供多种定义。 只要您可以使用该数据来帮助您的业务决策,它就具有良好的质量。 质量差的数据会增加您的工作量而不是帮助它。 想象一下,您根据两年前进行的二次研究做出了某些营销决策,这有什么好处?
数据质量维度
直觉上你可能会说实时数据是最好的数据。 不完全正确。 虽然数据仅与“新鲜”一样好(因为我们是在以曲速移动还是什么),但访问数据质量还有其他决定因素,我们不能忽视。

数据质量维度的散布特征对于更好地理解数据质量很重要,因为数据质量维度不能孤立地工作。 其中一些如准确性、可靠性、及时性、完整性和一致性维度可以分为内部视图和外部视图。 这些分类中的每一个都可以进一步分为数据相关和系统相关的维度。 或者,数据质量维度可以分为四类; 内在的、上下文的、代表性的和可访问性的。
一个)。 数据准确性
该维度已插入语义准确性和句法准确性。 后者是指价值与相关定义域元素的接近程度,而语义准确性是指价值与实际世界价值的接近程度。
乙)。 数据可用性
数据民主化是一把双刃剑。 但是,如果每个需要处理数据的人都无法访问数据,那么数据有什么用呢?
C)。 完整性
数据清理工具会在每个字段中搜索缺失值,它们会填充这些缺失值,从而为您提供全面的数据馈送。 但是,数据也应该表示空值。 只要我们能确定数据集中出现空值的原因,空值也应该被赋予相同的权重。
D)。 数据一致性
一致的数据反映了一种状态,其中相同的数据在整个系统中代表相同的值。 只要它们表示相同的值,所有分母都应处于平等地位。 通常从不同来源整合数据以收集信息并揭示洞察力。 但是,不同的来源有不同的架构和命名约定,集成后的不一致是可以预料的。 考虑到要集成的数据的庞大数量和种类,一致性问题应该在集成的早期阶段通过在公司内部定义数据标准和数据策略来管理。
E)。 时效性
数据及时性被定义为过时的变量。 过时属性包括年龄和波动性作为衡量标准。 但是,如果没有应用程序的上下文,则不应考虑这一点。 自然,最新的数据更有可能被认为是高质量的数据,但它并不优先于相关性。
准确性、完整性、一致性和存在性等数据质量维度与完整性属性的分类有关。 它可以被描述为数据映射到数据用户兴趣的与生俱来的能力。 与表示一致性相比,完整性属性缺乏不一致是从数据价值的角度定义的,而不仅仅是数据本身的格式或表示。
Web Scraping 作为监控数据质量最可行的解决方案
网络抓取使用爬虫工具在网络上搜索所需信息。 它可以与自动化质量保证系统集成,以确保所有维度的数据质量。
您如何构建这样的系统?
在更广泛的层面上,系统正试图衡量您的数据的完整性以及您抓取的数据的保护伞。
一个)。 可靠性
一个)。 确保抓取的数据字段取自正确的页面元素。
乙)。 收集是不够的。 格式化同样重要。 确保抓取的数据已在收集后进行处理,并以收集阶段要求的格式呈现。
乙)。 覆盖面积
一个)。 每个可用的项目都必须被抓取,这就是网络抓取的本质。
乙)。 每个项目的每个数据字段也必须被覆盖。
C)。 构建系统的不同方法
项目特定的测试框架
顾名思义,您从事的每个网络抓取项目的每个自动化测试框架都将是绝对定制的。 如果需求是分层的,并且您的爬虫功能高度基于规则,并且具有字段相互依赖性,则需要这种方法。
通用测试框架
另一种选择是创建一个通用框架来满足您的所有要求。 如果网络抓取是所有业务决策的核心并且定制部分不可行,则此方法可行。 该框架还允许为任何项目快速添加质量保证层。
解决方案
Web 抓取服务是管理数据完整性的最佳选择。 它带有手动和自动图层。 它还摆脱了所有 HTML 标记以获取“干净”数据。 像 PromptCloud 这样的企业网络抓取服务为全球数百个客户维护数据的数据质量以及他们采购的 zettabytes 数据。 我们还会在整个过程中为您提供帮助,我们的客户支持团队随时待命。
仍然不相信数据质量至关重要? 这是一个3.1 万亿美元的理由。 2016 年,仅在美国,劣质数据的年度成本就高达 3.1 万亿美元。
如果你喜欢阅读这篇文章,就像我们喜欢写这篇文章一样,请分享这份爱。 我们认为您可能同样喜欢阅读本文。
