如何创建现代数据堆栈
已发表: 2022-05-06在当今技术驱动的经济中,数据存储变得比以往任何时候都更加复杂。 根据 IDC(国际数据公司)的数据,2025 年将产生 175 Zettabytes 的数据,几乎是 2021 年(61 Zettabytes)产生量的三倍。

Statista 从 2010 年到 2025 年在全球范围内创建、捕获、复制和使用的数据量
如果您想正确存储和管理公司的信息,您需要了解许多可用选项以及如何将它们集成在一起。
幸运的是,本指南将帮助您构建一个现代数据堆栈,使您能够以最有效的方式收集、存储、分析并最终利用您的数据。 该蓝图足够灵活,可供处于任何发展阶段的公司使用,无论其规模或行业类型如何。
为什么需要现代数据堆栈?
现代数据堆栈是一组集成的工具,用于处理数据的端到端生命周期。 它旨在实时收集、处理和激活信息。 对于任何想要了解细粒度趋势(例如,在客户的组织内)并在趋势一成不变之前采取行动的组织来说,这都是必不可少的。
创建现代数据堆栈并不难,但它确实需要一些时间和承诺,并且需要准确了解您需要从数据中得到什么。 如果您认真对待改进运营并深入了解您的客户,那么每一分钟的努力都是值得的。 诀窍是知道从哪里开始以及如何前进。
本指南的其余部分将为您提供创建现代数据堆栈所需的所有信息。 您将了解不同组件如何协同工作,以及如何为现代数据堆栈的每个部分选择软件。 完成阅读后,您将拥有立即开始在您的组织中构建现代数据堆栈所需的一切!
“从数据的角度来看,数据仓库设备是一座真正的金矿。 使其可用于垂直集成的解决方案是行业云理念的核心。”
阿什图苏
数据湖和数据仓库:现代云数据平台的两个方面
现代数据堆栈的好处
为什么要投资现代数据堆栈? 这里有一些好处:
- 在几分钟内轻松提取数据并将其加载到任何目的地。
- 分析大量非结构化数据——文档、搜索结果、各种指标等——无需编写自定义脚本或创建临时查询。
- 让任何业务团队在自己的工具中使用可操作的、受信任的和最新的数据自助服务。
- 通过为业务团队集成无代码工具,更快地在您的组织中部署创新
- 现代数据堆栈通过消除构建和维护数据管道的需要来减少数据工程开销。
了解当前环境
设计任何解决方案的第一步是了解您要解决的问题。 退后一步,看看您的组织现在正在使用哪些当前工具、流程和程序。 然后问问自己:他们有效率吗? 有没有改进的余地?
现代数据堆栈都是关于效率的,所以如果您当前的流程效率低下(相信我,确实存在),那么您可以在该领域进行简化。
在某些情况下,它可能就像增加团队之间的协作或更新您的流程一样简单,但有时它可能意味着更换过时的软件,甚至将新技术引入您的环境。
不管是什么,在开始任何设计工作之前,先定义你要解决的确切问题。 它将使实施变得更加容易。
确定业务需求和目标
在为您的企业选择数据库之前,您需要了解它的数据模型、它需要什么样的查询和报告以及谁将使用它。 获得这些问题的答案也将帮助您的企业开始前期规划(而不是在未来进行更改)。
这里的一个关键问题是您的数据存储需要多大。 例如,在 OLAP(在线分析处理)场景中,您将拥有大量行,但每个行中的数据很少 - 但在在线事务处理 (OLTP) 场景中,您将拥有大量行和大量数据在每一行都需要更多的存储空间。 然后,还有需要更多空间的商业智能 (BI) 报告需求。 对于这种情况,BigQuery 是可以很好地处理所有三种情况的完美存储。
要考虑的另一件事是您是要使用云存储还是本地存储。 因此,如果您已经投资了本地基础设施,那么 Google Cloud Platform 可能不适合您。
计算可扩展性和性能
在选择云提供商时,重要的是要考虑您的应用程序是否会随着时间的推移按预期进行扩展和执行。
另一件至关重要的事情是了解您的数据将如何在每种环境中得到保护(例如,数据中心可能会遇到自然灾害、停电或设备故障)。
与所有这些步骤一样,进行研究和提问是必不可少的。 New Relic 等公司提供可以帮助您监控应用程序性能和流量的工具。
此外,像 Netflix 这样的组织已经创建了专门为在公共云上运行的现代应用程序设计的开源技术。 例如,Netflix 开发了 Security Monkey,这是一种有助于监控和保护基于 AWS 的大型环境的软件。
在评估云提供商时,值得深入研究这些技术——这种知识来自与来自不同公司的工程师交谈并了解他们的经验。

现代数据堆栈的组成部分
数据是一种战略资产。 为了充分利用它,您需要了解构成数据堆栈的各种组件以及它们如何协同工作。
以下是为您的产品设计自己的数据基础架构时要包括的数据堆栈的关键组件:
- 数据摄取
- 数据存储
- 数据转换
- 数据分析
- 数据治理
1. 数据摄取
数据摄取是将数据从一个位置导入到新的目的地,例如数据仓库或数据湖,以进行进一步的存储和分析。
创建现代数据堆栈的第一步是识别数据源。 借助数据摄取工具,您将能够在几分钟内导入所有数据。
假设您正在经营电子商务业务,查询必须限于您销售的产品及其变体。 您不希望每天有数百个查询访问您的数据库,因为有人查询了他甚至没有购买的商品。 按客户组、SKU 或其他过滤器对您的产品进行排名和过滤,并通过“访问我的商店”按钮提供用户友好的访问,以便客户可以轻松检索他们通过您的网站进行的销售的订单历史记录。
工具示例:Improvado、Fivetran、Stitch、Airflow
️我们列出的 16 大数据摄取工具列表将帮助您选择最适合您的数据堆栈的工具️
2.数据存储
随着云原生应用程序和微服务的兴起,大多数企业都会产生大量需要存储和管理的数据。 对于为结构化数据设计的传统关系数据库而言,这是一项具有挑战性的任务。
NoSQL 数据库是非结构化数据的理想选择,但它们可能难以大规模部署,尤其是在混合环境中。
云提供商提供自己的托管解决方案来帮助完成此步骤。 例如,AWS 为对象存储提供了一个名为 Amazon Simple Storage Service (S3) 的解决方案。 Google 将 BigQuery 作为 Cloud Platform 的一部分提供。 这两种服务都为大规模存储大量数据提供了低延迟平台。
工具示例:Snowflake、Databricks、AWS、GCP
阅读我们列出的 15 大数据仓库工具列表,找到与您的业务需求产生共鸣的工具
3.数据转换
数据转换是将数据从一种格式或结构转换为另一种格式或结构的过程。 通常,使用提取、转换和加载 (ETL) 技术执行数据转换。
了解 ETL 流程如何加速手动数据操作
数据转换在数据集成过程中至关重要,因为它为进一步分析、报告和可视化准备和规范化数据。 可以对任何类型的数据集执行数据转换,无论其原始格式或名称如何。
工具示例:Improvado DataPrep、Dbt、MCDM、Matillon、Alteryx、RestApp


4. 数据分析
分析层负责汇总、分析数据并将其呈现给用户。 您的分析层应回答以下问题:
- 我的业务的关键指标是什么?
- 这些指标如何随时间变化?
- 一个指标如何影响另一个指标?
大多数情况下,这意味着您的数据将被转换为图形、图表、表格和其他您可以立即理解的可视化表示。
最近的一些数据分析平台具有允许非技术人员在不了解 SQL 的情况下研究数据的功能。
示例工具:Looker、Tableau、Power BI
“如果没有大数据分析,公司就会瞎眼又聋,就像高速公路上的鹿一样在网络上徘徊。”
Geoffrey Moore,作家和顾问。
5. 数据治理
确保数据管道中每个步骤的明确所有权和流程至关重要。 这包括为收集的数据类型及其存储和访问方式设置标准,以及确保遵循和执行这些标准的流程。
假设您的目标是使用数据来提高运营效率。 您可能会决定所有库存系统都应使用相同的条形码系统,这样您就可以全面了解您的供应链,而无需手动协调不同的代码或系统。
示例工具:Atlan、Microsoft Azure 数据目录、Informatica

反向 ETL 替代方案
许多企业已经使用 ETL 技术构建了他们的数据堆栈。 这些技术对于处理来自多个来源的大量数据并将其移动到集中式数据仓库中非常有用。 但是,这种方法会增加基础架构的复杂性并减慢交付时间。
在当今世界,无论是在财务、供应链管理还是客户关系方面,业务决策都越来越多地基于实时数据做出。 现代数据堆栈使您的数据保持新鲜、可访问和安全,从而使您能够在整个组织中提供实时洞察。
这就是反向 ETL 可以帮助您构建现代数据堆栈的地方,该堆栈可为业务提供实时价值并消除因信息过时而导致失败的风险。
反向 ETL 是一组方法或流程,可将数据仓库中的数据同步到 CRM、CMS、产品或任何业务工具(Slack、Google Sheet 等)等运营工具。

这个过程背后的想法是创建一个单一的、全面的数据源,以提供一个有凝聚力、可信的企业数据视图。 反向 ETL 流程通常用于扩充现有的 ETL 流程,它们以定义的时间间隔运行。 此外,反向 ETL 支持运营分析。
运营分析与商业智能
运营分析是使用数据、预测分析和商业智能工具来深入了解业务运营并通过激活的数据生成实时行动。
Investopedia 将商业智能 (BI) 定义为收集、存储和分析公司活动产生的数据的程序和技术基础设施。
商业智能侧重于历史数据的分析。
它可以帮助您了解发生了什么以及为什么。 它用于通过数据比较、基准和其他统计技术识别模式和趋势来支持业务决策。
例如,创建一个报告来显示特定时间段内的订单数量、平均订单价值和订单总数是有意义的。
运营分析是一个专注于实时和未来的概念。 它专注于现在发生的事情并预测接下来会发生的事情,以便它可以帮助充分利用未来的机会。
总而言之,运营分析显示了我们现在需要采取的行动,而商业智能则揭示了做错了什么以及需要改进的地方。
运营分析不再局限于谷歌、Facebook 和 Netflix 等数字巨头。 借助实时数据,任何使用现代数据堆栈的公司都可以做出更多数据驱动的决策。
需要组织进化
当一家公司实施现代数据堆栈时,管理数据的方式会发生三个主要转变:
从 IT 到业务用户的转变
过去,IT 部门会处理来自部门和分析师的数据请求。 Tableau 和 Looker 等自助分析工具的开发使业务用户能够直接访问和分析数据。
这种转变对公司如何围绕数据组织资源具有巨大的影响。
从批处理到实时数据处理
. 随着数据管道变得更加精简,数据在整个组织中变得更容易访问,事件发生和分析之间的延迟时间需要缩短。
这意味着越来越多的公司正在关注数据的实时处理,而不是在更长的时间内聚合数据。
从孤立的数据库到联合所有权(域)
传统的数据架构是围绕孤立的数据库和联合所有权构建的,这导致了数据湖、数据集市和数据仓库的激增。
这些架构专注于集中式计算和存储基础设施。 随着云服务的成熟和现代化,构建数据堆栈的方法也应该如此。
当今的数据架构必须能够处理分布在一系列技术中的现代应用程序的规模和复杂性。 这就是数据网格概念的用武之地——一种新的架构,它允许安全地访问所有类型的数据,并且易于管理,并被任何地方的任何应用程序使用。
依靠你的利益相关者
现代数据堆栈主要分为三种类型的利益相关者。
内部利益相关者
这些是您组织内将在日常工作中使用数据的人员。
例如,销售团队可能对每个客户带来多少收入以及如何增加收入感兴趣。 或者,营销团队可能对哪些类型的内容能带来最多的网站流量感兴趣。
内部利益相关者应该对您收集哪些数据、如何构建数据以及使用哪些工具进行分析有发言权。
外部利益相关者
这些是来自您公司外部的人,但他们仍然与您的成功息息相关。
例如,如果您的企业是一家软件即服务 (SaaS) 公司,那么您产品的用户就是外部利益相关者。 如果您的企业在线销售产品并将其运送到全国或世界各地,那么客户和供应商就是外部利益相关者。
了解他们需要您提供什么非常重要,这样您才能正确有效地交付这些数据。
第三方利益相关者
这些是您组织之外的人员,他们也为您的公司提供服务。 例如,提供原材料的供应商或帮助您设置技术基础架构的 IT 顾问。 要想在数据上避免盲目的苍蝇,就需要掌握数据分析。 这将越来越需要在您的四堵墙之外开发数据。
现代数据堆栈通过为每个团队定义的域以及在无代码环境中使用它的能力,更有效地共享数据,从而加强了公司与其利益相关者之间的关系。
数据域加强了团队之间的关系,因为它们都在同一个域中运行。
例如,营销团队想知道有多少人注册了他们的新产品或服务,以及注册后它产生了多少收入。 产品团队生成的数据与营销团队相关,因为他们都在相似的空间工作。
结论
如您所见,在设置数据堆栈时需要考虑很多事情。 鉴于所涉及的所有不同组件,这是一项艰巨的任务,可能很难让您的手臂环绕所有移动部件。
了解您为什么需要数据堆栈以及它将如何使您的业务受益,使您能够通过设置清晰的实施流程和时间表来进行长期规划。 使用现代数据堆栈的好处是超过了沿途的任何挑战,不仅在单个项目和计划方面,而且在建立强大的基础以帮助您做出更好的整体决策方面。
