Construir vs. Comprar ETL: vale a pena o incômodo de dados para criar um ETL?
Publicados: 2022-12-15As necessidades de dados evoluíram muito rapidamente para as empresas na última década, com estimativas para o mercado global de dados atingir 180 zettabytes até 2025.
Nessa transformação de negócios, uma infraestrutura de dados robusta é um dos elementos-chave para garantir que os grandes volumes de dados coletados por uma organização não permaneçam como um ativo subutilizado. Diante de uma barreira tecnológica, as empresas se deparam com um dilema: construir internamente um pipeline de dados, ou seja, ETL, ou comprar uma solução pronta.
Compreender os prós e os contras de ambas as soluções e os riscos de reputação e segurança que o mau funcionamento dos pipelines de dados representam ajudará você a fazer a escolha certa para sua empresa.
Principais conclusões
- Os pipelines ETL consistem em três processos distintos: a extração de dados, sua transformação e o carregamento de dados para o destino de sua escolha.
- Construir um ETL requer muitos recursos humanos, custos iniciais e manutenção contínua.
- A compra de um ETL oferece acesso quase instantâneo às fontes de dados mais usadas com menos entradas de suas equipes.
- Pipelines pré-construídos escalam facilmente e atendem aos requisitos de conformidade do setor.
- À medida que os dados crescem em valor potencial, as empresas precisam de ganhos rápidos de dados para tomar decisões de negócios sólidas e permanecer competitivas.
Blocos de construção ETL de marketing
ETL, ou extrair, transformar e carregar, é o processo no qual os dados são extraídos de uma ou várias fontes, transformados e carregados em um endpoint.
Um guia para iniciantes em processos ETL: estágios e benefícios de ETL explicados
Os principais componentes que garantem o livre fluxo de dados em cada fase são:
- Conectores de fonte de dados: para coletar dados do Google Ads Manager, Shopify, Twitter Ads ou qualquer outra fonte de dados, primeiro você precisa estabelecer um conector, geralmente uma API aberta. Alguns aplicativos não fornecem API aberta ou usam arquivos brutos. Uma solução ETL deve ser capaz de processar vários formatos de dados.
- Camada de extração: um software complicado que extrai dados de locais de origem para uma área de preparação, onde aguarda a próxima fase no pipeline. A camada de extração aproveita a API para buscar dados, mas a dificuldade está em buscar os dados corretamente, no prazo, de acordo com a versão mais recente da API e requisitos internos e externos. O ponto crítico aqui é dar suporte à camada de extração com uma pilha de tecnologia durável. Grandes departamentos de marketing podem ingerir 50 mil linhas de dados e muito mais. Se o back-end não puder processar essa quantidade de dados, a saída final poderá ser fragmentada ou conter dados incompletos.
- Mecanismo de transformação: pega dados brutos, geralmente em formatos inutilizáveis ou desconexos, e os reformata em tipos de valor consistentes para prepará-los para análise. Os tipos mais comuns de transformação de dados incluem limpeza, desduplicação, padronização e muito mais. Considerando que a maioria dos profissionais de marketing não tem experiência em SQL (geralmente usado para aplicar transformações), o mecanismo precisa de uma interface do usuário clara e concisa.
- Lógica de carregamento: a parada final no pipeline ETL, onde os dados transformados são carregados para seu destino final: uma ferramenta de BI, visualização ou análise ou um data warehouse. É altamente utilizável e deve integrar-se facilmente com a solução de visualização de sua escolha.
Todos os componentes mencionados acima também devem ser dimensionados à medida que a empresa e suas necessidades de dados crescem.
Esta é uma descrição de alto nível dos blocos de construção do sistema ETL. A questão é se você deve codificá-los manualmente ou optar por comprar uma solução pronta.
Investimento inicial de compra versus construção de um ETL
Há muito mais no custo de um ETL do que apenas o preço.
Construindo um ETL
Largura de banda e custo de engenharia são as primeiras coisas a serem consideradas. Um projeto desse tamanho e complexidade levará meses para ser concluído, com os custos se acumulando.
Além disso, a maioria dos projetos de ETL requer uma quantidade significativa de armazenamento em nuvem em um data warehouse, o que representa um custo tanto na construção quanto na compra. No entanto, ao criar o seu próprio, você também deve descobrir a logística de aquisição de serviços adicionais de gerenciamento de data warehouse, incluindo como orçar os custos de expansão e redução quando necessário.
Depois de criar e implementar o sistema, espere gastar tempo e orçamento em materiais de treinamento para manter suas equipes atualizadas sobre como executar transformações, conectar fontes de dados e obter o máximo dos dados apresentados.
Comprando um ETL
O custo de comprar um ETL é um pouco mais direto. Você tem um preço de plano de serviço mensal ou anual, portanto não precisa criar uma equipe de desenvolvimento, atualizações de serviços em nuvem ou treinamento extensivo para entender a infraestrutura ETL.
Recursos integrados, como guias do usuário e documentação técnica, estão incluídos. Novos documentos de treinamento são constantemente adicionados, então você não terá que usar recursos internos adicionais.
Complexidade do Desenvolvimento
Construir um pipeline de ETL é uma tarefa tecnicamente desafiadora e trabalhosa em si. Construir um ETL para um departamento de marketing requer experiência em marketing, que pode faltar aos desenvolvedores vindos de equipes de produto.
Construindo um ETL
Ao criar seu ETL, os desenvolvedores gastam muito tempo e energia na conexão inicial das fontes de dados. Em seguida, as APIs geralmente precisam de ajustes para funcionar em seus sistemas internos, se as APIs forem oferecidas. Também é provável que uma plataforma não tenha uma API, forçando seus desenvolvedores a extrair dados de outras maneiras.
O que acontece quando você identifica uma fonte de dados para incluir em seu pipeline? As integrações de dados podem levar até 6,5 semanas de tempo de implementação, supondo que não ocorram erros e que sua infraestrutura esteja atualizada e segura.
À medida que novos conectores de API são adicionados, espere mais tempo esperando por esses dados, pois eles não são um evento plug-and-play. Espere que alguns dados possivelmente ruins apareçam de vez em quando, pois as pessoas cometem erros.
E esse é apenas um componente do pipeline ETL.
Comprando um ETL
A compra de um ETL libera você e sua equipe de desenvolvimento da longa lista de tarefas de criar ou adaptar cada API que você usa, cada transformação que você aplica ou o destino que você conecta.
De volta ao exemplo da API: depois que o pipeline estiver configurado, você pode escolher suas fontes de dados na lista e conectar-se em questão de cliques. À medida que novos conectores de fonte de dados são adicionados, acessar e visualizar dados é quase imediato.
O que acontece se você quiser extrair dados de um aplicativo que o fornecedor não oferece suporte? Empresas conceituadas também podem lidar com isso - em muito menos tempo do que se seus desenvolvedores estivessem criando o conector. A Improvado, por exemplo, possui um sistema de créditos Data Extraction Customization Services (DECS). Um cliente obtém créditos DECS no valor de 20% de seu plano de cobrança e pode usar esses créditos em APIs personalizadas, ingestão de arquivos e outras necessidades de extração.

Custos de manutenção
Tudo precisa de manutenção e seu pipeline ETL não é exceção.
Construindo um ETL
Não importa o que você faça, novos custos são assumidos toda vez que você mantém sua tecnologia. Isso acontece quando:
- As fontes de dados mudam os métodos de saída ou conexão, o que acontece com bastante frequência. Por exemplo, a API do Google Ads deprecia com o lançamento de cada nova versão, o que não deixa outra opção a não ser migrar para uma nova API. E a vida útil média de uma versão é de 12 meses.
- A maneira como você usa os dados muda.
- Como os dados que você usa mudam em relação a outros dados.
- As medidas de conformidade exigem que você atualize seus processos ou armazenamento de dados.
Há uma necessidade tão grande de assistência para ajudar os pipelines internos a migrar dados que empresas inteiras foram construídas com esse tipo de suporte.
Comprando um ETL
O que acontece quando você compra seu pipeline e algo precisa ser consertado? O fornecedor lida com isso automaticamente como parte de seu processo de atualização. À medida que as saídas da fonte de dados mudam, a tecnologia é atualizada para você e os regulamentos do setor também permanecem em mente.
A compra de um pipeline de dados dá a você acesso às equipes de suporte para ajudar com quaisquer solicitações ou problemas técnicos que você possa encontrar, reduzindo assim as dores de cabeça de manutenção à medida que você escala.
Custo de oportunidade
Os dados perdem valor ao longo do tempo, conforme reconhecido neste artigo sobre tempo e perecibilidade. Cada momento gasto construindo ou aprimorando pipelines e não coletando dados utilizáveis leva a uma diminuição no valor desses dados para o seu negócio.
Construindo um ETL
Longos tempos de implantação, incluindo testes e implantação, significam que os dados perecem enquanto você descobre as coisas. Isso o deixará menos competitivo do que outras empresas em seu setor, que podem ter dados prontos para serem acessados com o apertar de um botão.
Não é incomum que um ETL leve meses, ou mesmo anos, desde o estágio de conceito até a produção de dados utilizáveis. Se outras empresas do seu nicho já estão atuando com base em dados, não vai demorar muito para ficar para trás.
Comprando um ETL
Somente você pode definir o que os dados de negócios significam para você, mas o mercado global de software de análise de negócios atingiu US$ 67 bilhões em 2019. Com tanto investimento na captura e análise de dados, as empresas que pulam para a frente da fila com um pipeline de dados adquiridos podem criar mais valor do que os concorrentes.
Com um pipeline pronto para disseminar dados, você pode utilizá-los imediatamente da forma que melhor oriente suas decisões de negócios.
Riscos e outras questões de segurança
Incríveis 21% dos arquivos comerciais armazenados na nuvem contêm dados confidenciais. Sua escolha de pipeline de dados deve considerar quanto de seus dados pode estar em risco sem medidas de segurança rigorosas.
Construindo um ETL
A mudança contínua nos regulamentos de conformidade, como saúde ou finanças, significa atualizações contínuas em seu pipeline e um possível pesadelo de manutenção para permanecer legal e proteger os dados importantes de seus clientes e parceiros. O custo das auditorias de dados por si só pode distorcer o preço do desenvolvimento do pipeline, mas adicionar multas em potencial por violar proteções de dados e regras de conformidade também é um risco financeiro e de reputação real.
Comprando um ETL
Com um pipeline pré-criado, a conformidade é incorporada e não há necessidade de seus desenvolvedores aprenderem as melhores práticas regulatórias fora de suas competências e, em seguida, ajustar as coisas para estar em conformidade.
À medida que os requisitos do setor, como HIPAA ou SOC 2, mudam, seu pipeline é atualizado automaticamente para atendê-los, mesmo nos casos em que você mesmo não está seguindo as mudanças.
Os setores bancário, de saúde e de serviço social são muito para acompanhar. Você não pode nem começar a prever como as mudanças nos regulamentos pressionam suas equipes para permanecerem em conformidade, mas um pipeline pré-construído elimina esse estresse.
Desempenho e escalabilidade
Muitos fatores afetam o desempenho, desde a infraestrutura até o erro humano.
Construindo um ETL
Quando você cria seu próprio ETL, o processo está repleto de oportunidades para erro humano. . Por exemplo, é preciso apenas um erro ortográfico para inviabilizar uma fonte de dados inteira.
Além disso, cada nova fonte requer escrever novo código, teste, implantação e conversão de formato - um uso muito ineficiente do tempo de seus desenvolvedores que pode desencorajar o dimensionamento em momentos cruciais.
Você pode ver atrasos na obtenção de resultados de dados devido a erros de conexão na nuvem ou recursos de processamento de sua parte. Você é o único responsável por manter as coisas funcionando bem.
Comprando um ETL
A infraestrutura é enviada para o fornecedor, portanto, você não precisa manter todos os recursos de computação em nuvem no local ou pagar por vários fornecedores de nuvem. Você também pode aumentar a qualquer momento para receber acesso a mais linhas, conectores e muito mais.
Por que o ETL não deve ser DIY
Muitos líderes empresariais são inovadores, aptos e motivados a adotar uma abordagem DIY para pipelines ETL. Com a incerteza dos mercados de trabalho, o alto custo dos recursos e o fato indiscutível de que os dados se degradam com o tempo, esperar para lidar com as coisas por conta própria pode colocá-lo em uma desvantagem significativa no mercado.
A escolha de um ETL pré-construído da Improvado concede a você acesso a novos dados, colocando-o em posição de tomar decisões de negócios importantes sobre os mercados atuais.
Com mais de 300 integrações de dados (e crescendo), você pode misturar e combinar fontes para obter uma visão completa das jornadas dos clientes, finanças, gastos com anúncios e muito mais, tudo sem as dores de cabeça de conformidade e os custos de manutenção contínuos associados a fazer isso sozinho.
À medida que os mercados, regulamentações e fontes de dados mudam, a Improvado ajustará seus processos para acompanhar as solicitações de integridade e segurança dos dados. É a escolha ideal para empresas que valorizam a tomada de decisões baseada em dados.



