数据治理以及组织为什么需要它?
已发表: 2021-01-27数据治理包括公司实现其数据管理目标所需的人员、流程、规则、法规、政策和标准。 虽然业务团队通常负责并帮助创建所需的流程,但技术团队帮助自动化这些流程并为它们注入活力。 在宏观层面,它是政治话语和国际关系的一部分,而在微观层面,它是公司规划数据战略的一部分。
数据治理原则
数据治理通常会考虑多种因素,例如:
一个)。 确保不同利益相关者的数据可访问性
乙)。 数据所有权
C)。 添加更多数据源的新思路
d)。 确保数据安全并维护访问控制
e)。 建立数据清理和数据处理管道
F)。 符合与数据访问和存储相关的规则和合规性要求
有效的数据治理可确保公司处理的数据的各个方面都通过一系列流程、制造者和检查者、数据所有者和控制机制进行管理。 它还确保在多个团队访问和更新数据时保持数据的隐私性、完整性、可用性和清洁度。

今天的公司有机会从众多来源收集大量数据。 他们可以使用物联网技术从机器中获取数据,也可以使用内部数据——即由客户、客户和流程生成的数据。 数据科学团队还可以利用外部数据源并利用网络抓取解决方案。

在处理来自多个来源的数据时,在汇总数据之前需要小心,并且公司需要检查各个级别的数据验证以将风险降到最低。 大量数据并不能自动确保公司的成功,这就是为什么公司需要通过数据治理进行数据纪律。
任何公司的数据治理团队通常包括关键垂直领域的成员,例如技术、业务、质量保证和合规性。 团队 r 致力于关键要求,包括但不限于:
一个)。 政策审批
乙)。 创建数据咨询小组
C)。 为所需数据产品分配所有者
d)。 数据更正和数据标准化
e)。 规则引擎或框架
F)。 数据基础设施
数据治理团队如何工作?


数据治理的要求通常从业务团队开始。 例如,让我们以一家向大学生提供小额贷款的公司为例。 对于这样的企业,可能需要存储申请贷款的人的某些财务数据。 需要以某种方式屏蔽信息,以使不同的团队和成员对他们需要处理的数据点的访问权限有限。
一旦业务团队提出要求,就需要由合规团队进行验证。 这些更改应有助于公司在审计期间满足其法定要求。 一旦将要求和验证以及其他信息添加到其中,技术团队通常会构建一个解决方案。
该解决方案将分为两部分——a)需要编写以屏蔽数据的实际代码,b)在 AWS 等云平台上所需的基础设施设置。 构建更改后,需要由质量和保证团队对其进行测试,并在上线之前由合规团队重新验证。
当多个团队是单个解决方案的一部分时,主要障碍之一是术语。 对于电子商务公司来说,仓库团队可能认为当一个产品“发货”时,就意味着它已经到达了仓库,而交付团队可能认为这个词代表“out for delivery”。 需要定义通用术语,以使每个人在处理数据治理问题时都能保持一致。
数据治理与数据管理
数据治理和数据管理似乎是同义词,但实际上并非如此。 然而,在大多数情况下,数据管理是数据治理的一部分。 数据管理处理与处理和存储数据相关的不同方面。 这可能包括设置云基础设施并对其进行维护,同时控制成本。 它还涉及清理和处理来自多个来源的数据,以便访问数据的人可以即插即用格式使用它。 数据管理团队将每天处理一些特定的要求,例如:
一个)。 数据规范化和格式化
乙)。 使用阶梯函数等服务的数据管道和 ETL 工作流
C)。 使用 AWS Glue 等服务进行数据编目
d)。 创建和更新一站式数据湖
另一方面,数据治理团队将定义数据管理团队在处理其任何项目时需要满足的政策和合规性要求。 需要首先设计的数据流的基础架构还需要符合数据治理团队设定的标准。
简而言之,数据治理团队将为公司中与数据相关的所有内容设置流程和规则,而数据管理团队通常会应用这些规则和流程并设置基础设施要求。
数据治理的好处
数据治理在短期内可能难以实施,但它就像一棵结果树,一旦建立,就会不断产生结果。 它可以帮助提高数据科学和分析团队的工作量,还有助于管理风险和保持合规性:
一个)。 数据治理到位后,您将拥有一套标准规则,任何从事数据科学项目并需要访问公司数据流的人都可以遵循这些规则。 反过来,这将减少对多层次沟通和决策的需求
乙)。 有了既定的目标和要求,与数据管理相关的成本就会下降,而成本节约就会更高。 这尤其适用于当公司手头有大量数据但有适当的存储、归档和访问方法时
C)。 数据驱动的活动将更加透明,这将使公司能够更快地向利益相关者或审计师提供答案
d)。 有了适当的指导方针,公司可以瞄准更多的外部数据来源,以丰富当前的数据来源并创建更广泛的市场研究
e)。 数据治理团队可以为产品或技术可能面临或合规团队遇到的所有数据相关问题提供更快的解决方案
F)。 改进的监控和记录机制将确保数据安全并使公司能够获得客户的信任。 近年来,随着全球发生多起数据黑客事件,数据安全可能是您失去所有客户的原因,即使您的产品物超所值
斗争
数据治理的兴起是由于公司在多次网络攻击和失去公众信任后面临的困境。 如今,此类外部违规行为、增加的法规和成本节约使得数据治理成为大公司和小公司涉足数据的必要条件。 加州消费者隐私法 (CCPA) 和通用数据保护条例 (GDPR) 等最近的法规增加了对基于预定义标准构建数据基础设施的公司的激励。
就像罗马不是一天建成的一样,创建一个数据治理团队并构建整个公司遵循的框架可能在短期内并不可行。 这背后的原因是,您需要来自不同团队的参与者聚集在一起,分析公司将使用的数据、数据流的来源、使用目的以及访问数据。
网页抓取和治理
由于网络上几乎无限量的可用信息和实时数据更新,网络抓取是行业等外部数据的最大来源。 然而,对诉讼和合规要求的恐惧在使用网络抓取作为数据源的道路上制造了障碍。 拥有一个标准化的数据治理规则手册和一个可以在每次添加新源时提出“待办事项列表”的团队可以帮助您保持数据法则的正确性。
如果您喜欢阅读此博客,我们相信您可能会喜欢阅读Data Normalization 和 Data Structuring 之间的区别。 请务必在下面的评论部分中留下您宝贵的反馈。
