构建与。 购买 ETL:构建 ETL 是否值得为数据而烦恼?
已发表: 2022-12-15在过去十年中,企业的数据需求发展非常迅速,据估计到 2025 年全球数据市场将达到 180 泽字节。
在这种业务转型中,强大的数据基础架构是确保组织收集的大量数据不会成为未充分利用的资产的关键要素之一。 面对技术壁垒,企业陷入两难境地:是自建数据管道,即ETL,还是购买现成的解决方案。
了解这两种解决方案的优缺点以及数据管道故障带来的声誉和安全风险将帮助您为您的公司做出正确的选择。
关键要点
- ETL 管道由三个不同的过程组成:数据提取、数据转换以及将数据加载到您选择的目的地。
- 构建 ETL 需要大量的人力资源、前期成本和持续维护。
- 购买 ETL 可以让您近乎即时地访问最常用的数据源,而您的团队输入更少。
- 预建管道可轻松扩展并满足行业合规性要求。
- 随着数据潜在价值的增长,公司需要快速赢得数据以做出明智的业务决策并保持竞争力。
市场营销 ETL 构建块
ETL,或提取、转换和加载,是从一个或多个源中提取数据、转换数据,然后将其加载到端点的过程。
ETL 流程初学者指南:ETL 阶段和优势说明
确保数据在每个阶段自由流动的主要组成部分是:
- 数据源连接器:要从 Google Ads Manager、Shopify、Twitter Ads 或任何其他数据源收集数据,您首先需要建立一个连接器,通常是一个开放的 API。 一些应用程序不提供开放 API 或使用原始文件。 ETL 解决方案必须能够处理多种数据格式。
- 提取层:一种复杂的软件,可将数据从源位置提取到暂存区,等待管道中的下一阶段。 抽取层利用API获取数据,难点在于如何根据最新的API版本和内外部需求,正确、及时地获取数据。 这里的关键是用持久的技术栈来支持提取层。 大型营销部门可以摄取 50k 行甚至更多的数据。 如果后端无法处理此数量的数据,最终输出可能会断裂或包含不完整的数据。
- 转换引擎:获取原始数据(通常采用不可用或不连贯的格式),并将其重新格式化为一致的值类型,以准备进行分析。 最常见的数据转换类型包括清理、重复数据删除、标准化等。 考虑到大多数营销人员没有 SQL(通常用于应用转换)方面的经验,引擎需要一个清晰简洁的 UI。
- 加载逻辑: ETL 管道的最后一站,将转换后的数据加载到其最终目的地:BI、可视化或分析工具,或数据仓库。 它非常有用,应该可以轻松地与您选择的可视化解决方案集成。
上面提到的所有组件也应该随着公司及其数据需求的增长而扩展。
这是对 ETL 系统构建块的高级描述。 问题是您应该手动编码还是选择购买现成的解决方案。
购买与构建 ETL 的前期投资
ETL 的成本远不止价格标签那么简单。
构建 ETL
工程带宽和成本是首先要考虑的事情。 这种规模和复杂性的项目将需要数月才能完成,而且成本会越来越高。
此外,大多数 ETL 项目都需要在数据仓库中使用大量云存储,这在构建和购买场景中都是一项成本。 但是,在构建自己的数据仓库时,您还必须弄清楚采购额外数据仓库管理服务的后勤工作,包括如何在需要时为扩大和缩小规模的成本制定预算。
在创建和实施系统后,期望花费时间和预算购买培训材料,让您的团队了解如何运行转换、连接数据源和充分利用所提供数据的最新信息。
购买 ETL
购买 ETL 的成本要简单一些。 您有一个月度或年度服务计划价格,因此您无需提供开发人员、云服务升级或大量培训来了解 ETL 基础设施。
包括用户指南和技术文档等入门资源。 不断添加新的培训文档,因此您不必使用额外的内部资源。
开发复杂度
构建 ETL 管道本身就是一项劳动密集型、技术上具有挑战性的任务。 为营销部门构建 ETL 需要营销专业知识,而来自产品团队的开发人员可能缺乏这些知识。
构建 ETL
创建 ETL 时,开发人员会在数据源的初始连接上花费大量时间和精力。 然后,如果提供了 API,API 通常需要调整才能适用于您自己开发的系统。 平台也可能没有 API,迫使您的开发人员以其他方式提取数据。
当您确定要包含在管道中的数据源时会发生什么? 数据集成最多可能需要 6.5 周的实施时间,前提是没有发生任何错误并且您的基础架构是最新且安全的。
随着新的 API 连接器的添加,预计会有更多时间等待该数据,因为它们不是即插即用的事件。 由于人们会犯错误,因此可能会不时地潜入一些可能不好的数据。
而这只是 ETL 管道的一个组成部分。
购买 ETL
购买 ETL 可以将您和您的开发团队从创建或调整您使用的每个 API、您应用的每个转换或您连接的目的地的长长的待办事项列表中解放出来。
回到 API 示例:设置管道后,您可以从列表中选择数据源并通过单击进行连接。 随着新数据源连接器的添加,访问和查看数据几乎是即时的。
如果您想从供应商不支持的应用程序中提取数据,会发生什么情况? 信誉良好的公司也可以处理这些问题——与您的开发人员创建连接器相比,所花的时间要少得多。 例如,Improvado 拥有数据提取定制服务 (DECS) 信用系统。 客户可以获得相当于其计费计划 20% 的 DECS 积分,并且可以将这些积分用于自定义 API、文件摄取和其他提取需求。
维护费用
一切都需要维护,您的 ETL 管道也不例外。
构建 ETL
无论您做什么,每次维护技术时都会承担新的成本。 这发生在:
- 数据源更改输出或连接方法,这种情况经常发生。 例如,Google Ads API 会随着每个新版本的发布而贬值,除了迁移到新 API 之外别无选择。 一个版本的平均寿命为 12 个月。
- 您使用数据的方式会发生变化。
- 您使用的数据如何改变其他数据。
- 合规措施要求您更新流程或数据存储。
在帮助内部管道迁移数据方面非常需要帮助,整个企业都建立在这种类型的支持之上。

购买 ETL
当您购买管道并且需要修复某些东西时会发生什么? 供应商将其作为更新过程的一部分自动处理。 随着数据源输出的变化,技术会为您升级,行业法规也将成为首要考虑因素。
购买数据管道可以让您获得支持团队的帮助,以帮助解决您可能遇到的任何技术请求或问题,从而在您扩展时减少维护难题。
机会成本
正如这篇关于时间和易腐烂性的论文所承认的那样,数据会随着时间的流逝而失去价值。 花在构建或调整管道上而不是收集可用数据的每一刻都会导致该数据对您的业务的价值下降。
构建 ETL
较长的推出时间(包括测试和部署)意味着数据会在您解决问题时消失。 这将使您的竞争力低于您所在行业的其他企业,这些企业可能只需按一下按钮即可准备好数据。
ETL 从概念阶段到生成可用数据需要数月甚至数年的时间并不少见。 如果您所在领域的其他企业已经在根据数据采取行动,那么很快就会落后。
购买 ETL
只有您可以定义业务数据对您意味着什么,但全球业务分析软件市场在 2019 年达到了 670 亿美元。由于在捕获和解析数据方面投入了大量资金,那些直接购买数据管道的企业可能会创建比竞争对手更有价值。
准备好传播数据的管道后,您可以立即以最能指导您的业务决策的方式使用它。
风险和其他安全问题
令人难以置信的是,存储在云中的业务文件中有 21% 包含敏感数据。 您对数据管道的选择应考虑在没有严格的安全措施的情况下有多少数据可能面临风险。
构建 ETL
合规性法规(例如医疗保健或金融)的持续变化意味着对您的管道的持续更新和可能的维护噩梦,以保持合法性并保护您的客户和合作伙伴的重要数据。 仅数据审计的成本就可能扭曲管道开发的价格,但加上违反数据保护和合规规则的潜在罚款也是一个真正的财务和声誉风险。
购买 ETL
借助预建管道,合规性已融入其中,您的开发人员无需学习超出其能力范围的监管最佳实践,然后调整内容以使其合规。
随着行业要求(例如 HIPAA 或 SOC 2)发生变化,您的管道会自动更新以满足它们,即使您没有自己关注这些变化也是如此。
银行业、医疗保健和社会服务行业需要跟上很多步伐。 您甚至无法开始预测不断变化的法规如何给您的团队施加压力以保持合规性,但预建的管道可以消除这种压力。
性能和可扩展性
许多因素都会影响性能,从基础设施到人为错误。
构建 ETL
当您构建自己的 ETL 时,该过程充满了人为错误的机会。 . 例如,只需一个拼写错误就会破坏整个数据源。
最重要的是,每个新源都需要编写新代码、测试、部署和格式转换——这是对开发人员时间的非常低效的利用,可能会阻碍在关键时刻进行扩展。
由于云连接错误或您端的处理资源,您可能会看到获取数据结果的延迟。 您全权负责保持一切正常运行。
购买 ETL
基础架构被推给供应商,因此您无需将所有云计算资源保留在现场或为多个云供应商付费。 您还可以随时扩展以获得对更多行、连接器等的访问权限。
为什么 ETL 不应该是 DIY
许多业务领导者具有创新精神、善于思考并积极主动地对 ETL 管道采取 DIY 方法。 由于劳动力市场的不确定性、高昂的资源成本以及数据随着时间的推移而退化这一不争的事实,等待自己处理事情可能会使您处于明显的市场劣势。
选择 Improvado 的预构建 ETL 可让您访问新数据,使您能够针对当今市场做出重要的业务决策。
通过 300 多个数据集成(并且还在不断增加),您可以混合和匹配源以全面了解客户旅程、财务、广告支出等,而无需担心合规性难题和单独行动相关的持续维护成本。
随着市场、法规和数据源的变化,Improvado 将调整其流程以跟上数据完整性和安全要求。 对于重视数据驱动决策的企业来说,这是理想的选择。



