Construire Vs. Acheter ETL : Cela vaut-il la peine de créer un ETL ?

Publié: 2022-12-15

Les besoins en données ont évolué très rapidement pour les entreprises au cours de la dernière décennie, avec des estimations pour que le marché mondial des données atteigne 180 zettaoctets d'ici 2025.

Dans cette transformation de l'entreprise, une infrastructure de données robuste est l'un des éléments clés pour garantir que les gros volumes de données qu'une organisation collecte ne restent pas un actif sous-utilisé. Face à une barrière technologique, les entreprises sont confrontées à un dilemme : faut-il construire un pipeline de données, à savoir ETL, en interne ou acheter une solution toute faite.

Comprendre les avantages et les inconvénients des deux solutions et les risques de réputation et de sécurité que posent les dysfonctionnements des pipelines de données vous aidera à faire le bon choix pour votre entreprise.

Points clés à retenir

  • Les pipelines ETL consistent en trois processus distincts : l'extraction des données, leur transformation et le chargement des données vers la destination de votre choix.
  • La construction d'un ETL nécessite des ressources humaines importantes, des coûts initiaux et une maintenance continue.
  • L'achat d'un ETL vous donne un accès quasi instantané aux sources de données les plus utilisées avec moins d'entrées de la part de vos équipes.
  • Les pipelines pré-construits évoluent facilement et répondent aux exigences de conformité de l'industrie.
  • À mesure que la valeur potentielle des données augmente, les entreprises ont besoin de gains de données rapides pour prendre des décisions commerciales judicieuses et rester compétitives.

Blocs de construction ETL marketing

ETL, ou extraction, transformation et chargement, est le processus dans lequel les données sont extraites d'une ou plusieurs sources, transformées, puis chargées dans un point de terminaison.

Guide du débutant sur les processus ETL : les étapes et les avantages de l'ETL expliqués

Les principaux composants qui assurent la libre circulation des données à chaque phase sont :

  • Connecteurs de source de données : pour collecter des données à partir de Google Ads Manager, de Shopify, de Twitter Ads ou de toute autre source de données, vous devez d'abord établir un connecteur, généralement une API ouverte. Certaines applications ne fournissent pas d'API ouverte ou n'utilisent pas de fichiers bruts. Une solution ETL doit pouvoir traiter plusieurs formats de données.
  • Couche d'extraction : un logiciel complexe qui extrait les données des emplacements sources vers une zone de transit, où elles attendent la prochaine phase du pipeline. La couche d'extraction exploite l'API pour récupérer les données, mais la difficulté réside dans la récupération correcte des données, à temps, conformément à la dernière version de l'API et aux exigences internes et externes. L'essentiel ici est de soutenir la couche d'extraction avec une pile technologique durable. Les grands départements marketing peuvent ingérer 50 000 lignes de données et plus encore. Si le backend ne peut pas traiter cette quantité de données, la sortie finale peut être fracturée ou contenir des données incomplètes.
  • Moteur de transformation : prend des données brutes, souvent dans des formats inutilisables ou disjoints, et les reformate en types de valeur cohérents pour les préparer à l'analyse. Les types de transformation de données les plus courants incluent le nettoyage, la déduplication, la standardisation, etc. Étant donné que la plupart des spécialistes du marketing n'ont aucune expérience en SQL (souvent utilisé pour appliquer des transformations), le moteur a besoin d'une interface utilisateur claire et concise.
  • Logique de chargement : la dernière étape du pipeline ETL, où les données transformées sont chargées vers leur destination finale : un outil de BI, de visualisation ou d'analyse, ou un entrepôt de données. Il est très utilisable et devrait s'intégrer facilement à la solution de visualisation de votre choix.

Tous les composants mentionnés ci-dessus doivent également évoluer à mesure que l'entreprise et ses besoins en données augmentent.

ETL est le processus consistant à combiner des données provenant d'une ou plusieurs sources et à les charger dans une seule base de données.
Trois étapes qui composent un ETL : extraire, transformer et charger

Il s'agit d'une description de haut niveau des éléments constitutifs du système ETL. La question est de savoir si vous devez les coder à la main ou opter pour l'achat d'une solution toute faite.

Investissement initial d'achat vs construction d'un ETL

Il y a tellement plus dans le coût d'un ETL que le simple prix.

Construire un ETL

La bande passante et le coût d'ingénierie sont les premiers éléments à prendre en compte. Un projet de cette envergure et de cette complexité prendra des mois à réaliser, avec des coûts qui s'accumulent.

De plus, la plupart des projets ETL nécessitent une quantité importante de stockage dans le cloud dans un entrepôt de données, ce qui représente un coût dans les scénarios de construction et d'achat. Cependant, lorsque vous créez le vôtre, vous devez également comprendre la logistique de l'achat de services de gestion d'entrepôt de données supplémentaires, y compris la manière de budgétiser les coûts de mise à l'échelle en cas de besoin.

Après avoir créé et mis en œuvre le système, attendez-vous à consacrer du temps et du budget à du matériel de formation pour tenir vos équipes informées de la manière d'exécuter des transformations, de connecter des sources de données et de tirer le meilleur parti des données présentées.

Acheter un ETL

Le coût d'achat d'un ETL est un peu plus simple. Vous avez un forfait de service mensuel ou annuel, vous n'avez donc pas besoin de personnel de développement, de mises à niveau de service cloud ou de formation approfondie pour comprendre l'infrastructure ETL.

Les ressources d'intégration, telles que les guides de l'utilisateur et la documentation technique, sont incluses. De nouveaux documents de formation sont constamment ajoutés, vous n'aurez donc pas à utiliser de ressources internes supplémentaires.

Obtenez des informations à partir des données, sans tracas pour obtenir les données

Explorer

Complexité du développement

La construction d'un pipeline ETL est une tâche exigeante en main-d'œuvre et techniquement difficile en soi. Construire un ETL pour un département marketing nécessite une expertise marketing, qui manque parfois aux développeurs issus des équipes produit.

Construire un ETL

Lors de la création de votre ETL, les développeurs consacrent beaucoup de temps et d'énergie à la connexion initiale des sources de données. Ensuite, les API doivent souvent être peaufinées pour fonctionner avec vos systèmes locaux, si des API sont proposées. Il est également probable qu'une plate-forme n'ait pas d'API, obligeant vos développeurs à extraire les données d'autres manières.

Que se passe-t-il lorsque vous identifiez une source de données à inclure dans votre pipeline ? Les intégrations de données peuvent prendre jusqu'à 6,5 semaines de temps de mise en œuvre, en supposant qu'aucune erreur ne se produise et que votre infrastructure est à jour et sécurisée.

À mesure que de nouveaux connecteurs API sont ajoutés, attendez-vous à plus de temps à attendre ces données, car il ne s'agit pas d'un événement plug-and-play. Attendez-vous à ce que des données éventuellement erronées s'y faufilent de temps en temps, car les gens font des erreurs.

Et ce n'est qu'un élément du pipeline ETL.

Acheter un ETL

L'achat d'un ETL vous libère, vous et votre équipe de développement, de la longue liste de tâches consistant à créer ou à adapter chaque API que vous utilisez, chaque transformation que vous appliquez ou la destination à laquelle vous vous connectez.

Revenons à l'exemple de l'API : une fois le pipeline configuré, vous pouvez choisir vos sources de données dans la liste et vous connecter en quelques clics. À mesure que de nouveaux connecteurs de source de données sont ajoutés, l'accès et la visualisation des données sont presque immédiats.

Que se passe-t-il si vous souhaitez extraire des données d'une application que le fournisseur ne prend pas en charge ? Des entreprises réputées peuvent également les gérer, en beaucoup moins de temps que si vos développeurs créaient le connecteur. Improvado, par exemple, dispose d'un système de crédits DECS (Data Extraction Customization Services). Un client obtient des crédits DECS d'une valeur de 20 % de son plan de facturation et peut utiliser ces crédits sur des API personnalisées, l'ingestion de fichiers et d'autres besoins d'extraction.

Coûts de maintenance

Tout a besoin de maintenance, et votre pipeline ETL ne fait pas exception.

Construire un ETL

Peu importe ce que vous faites, de nouveaux coûts sont assumés chaque fois que vous entretenez votre technologie. Cela se produit lorsque :

  • Les sources de données changent les méthodes de sortie ou de connexion, ce qui arrive assez souvent. Par exemple, l'API Google Ads se déprécie à chaque sortie de nouvelle version, ce qui ne laisse d'autre choix que de migrer vers une nouvelle API. Et la durée de vie moyenne d'une version est de 12 mois.
  • La façon dont vous utilisez les données change.
  • Comment les données que vous utilisez changent par rapport aux autres données.
  • Les mesures de conformité vous obligent à mettre à jour vos processus ou votre stockage de données.

Il y a un tel besoin d'assistance pour aider les pipelines internes à migrer les données que des entreprises entières ont été construites sur ce type de support.

Acheter un ETL

Que se passe-t-il lorsque vous achetez votre pipeline et que quelque chose doit être réparé ? Le fournisseur le gère automatiquement dans le cadre de son processus de mise à jour. Au fur et à mesure que les sorties des sources de données changent, la technologie est mise à niveau pour vous et les réglementations de l'industrie restent également à l'esprit.

L'achat d'un pipeline de données vous donne accès à des équipes d'assistance pour répondre à toutes les demandes ou problèmes techniques que vous pourriez rencontrer, réduisant ainsi les maux de tête liés à la maintenance à mesure que vous évoluez.

Coût d'opportunité

Les données perdent de leur valeur avec le temps, comme le reconnaît cet article sur le temps et la périssabilité. Chaque instant passé à construire ou à peaufiner des pipelines et à ne pas collecter de données utilisables entraîne une diminution de la valeur de ces données pour votre entreprise.

Construire un ETL

La création et la maintenance d'un ETL en interne est une tâche gourmande en ressources.
Ce qu'il faut pour construire et maintenir un pipeline ETL en interne.

Les longs délais de déploiement, y compris les tests et le déploiement, signifient que les données périssent pendant que vous comprenez les choses. Cela vous rendra moins compétitif que d'autres entreprises de votre secteur qui peuvent avoir des données prêtes à l'emploi en appuyant simplement sur un bouton.

Il n'est pas rare qu'un ETL prenne des mois, voire des années, de la phase de conception à la production de données utilisables. Si d'autres entreprises de votre créneau agissent déjà sur les données, il ne faudra pas longtemps pour prendre du retard.

Acheter un ETL

Vous seul pouvez définir ce que les données d'entreprise signifient pour vous, mais le marché mondial des logiciels d'analyse commerciale a atteint 67 milliards de dollars en 2019. Avec autant d'investissements dans la capture et l'analyse des données, les entreprises qui passent en première ligne avec un pipeline de données acheté peuvent créer plus de valeur que les concurrents.

Avec un pipeline prêt à diffuser des données, vous pouvez l'utiliser immédiatement de la manière qui guide le mieux vos décisions commerciales.

Risques et autres problèmes de sécurité

Un incroyable 21% des fichiers professionnels stockés dans le cloud contiennent des données sensibles. Votre choix de pipeline de données doit tenir compte de la quantité de vos données qui pourrait être à risque sans mesures de sécurité rigoureuses.

Construire un ETL

Une modification continue des réglementations de conformité, telles que la santé ou la finance, signifie des mises à jour continues de votre pipeline et un possible cauchemar de maintenance pour rester dans la légalité et protéger les données importantes de vos clients et partenaires. Le coût des audits de données à lui seul peut fausser le prix du développement du pipeline, mais l'ajout d'amendes potentielles pour violation de la protection des données et des règles de conformité constitue également un réel risque financier et de réputation.

Acheter un ETL

Avec un pipeline pré-construit, la conformité est intégrée et vos développeurs n'ont pas besoin d'apprendre les meilleures pratiques réglementaires en dehors de leurs compétences, puis de modifier les choses pour être conformes.

Au fur et à mesure que les exigences du secteur, telles que HIPAA ou SOC 2, changent, votre pipeline se met automatiquement à jour pour y répondre, même dans les cas où vous ne suivez pas vous-même les modifications.

Les secteurs de la banque, de la santé et des services sociaux sont très difficiles à suivre. Vous ne pouvez même pas commencer à anticiper la façon dont l'évolution des réglementations exerce une pression sur vos équipes pour qu'elles restent conformes, mais un pipeline pré-construit élimine ce stress.

La culture des données est importante. Apprenez à le favoriser dans votre organisation.

GUIDE GRATUIT

Performances et évolutivité

De nombreux facteurs affectent les performances, de l'infrastructure à l'erreur humaine.

Construire un ETL

Lorsque vous construisez votre propre ETL, le processus est plein d'opportunités d'erreur humaine. . Par exemple, il suffit d'une seule faute d'orthographe pour faire dérailler une source de données entière.

En plus de cela, chaque nouvelle source nécessite l'écriture d'un nouveau code, des tests, un déploiement et une conversion de format, une utilisation très inefficace du temps de vos développeurs qui pourrait décourager la mise à l'échelle à des moments cruciaux.

Vous pouvez constater des retards dans l'obtention des résultats de données en raison d'erreurs de connexion au cloud ou de ressources de traitement de votre côté. Vous êtes seul responsable du bon fonctionnement des choses.

Acheter un ETL

L'infrastructure est transmise au fournisseur, vous n'êtes donc pas chargé de conserver toutes les ressources de cloud computing sur site ou de payer pour plusieurs fournisseurs de cloud. Vous pouvez également évoluer à tout moment pour accéder à davantage de lignes, de connecteurs, etc.

Pourquoi l'ETL ne devrait pas être un bricolage

De nombreux chefs d'entreprise sont innovants, aptes et motivés à adopter une approche de bricolage pour les pipelines ETL. Avec l'incertitude des marchés du travail, le coût élevé des ressources et le fait incontestable que les données se dégradent avec le temps, attendre pour gérer les choses par vous-même peut vous désavantager considérablement sur le marché.

Comparez les approches ETL de construction et d'achat en termes de coût, de temps, d'évolutivité et de coût d'opportunité.
Comparaison côte à côte des approches de construction et d'achat.

Le choix d'un ETL pré-construit d'Improvado vous donne accès à de nouvelles données, ce qui vous permet de prendre des décisions commerciales importantes sur les marchés d'aujourd'hui.

Avec plus de 300 intégrations de données (et de plus en plus), vous pouvez mélanger et assortir les sources pour obtenir une vue complète des parcours des clients, des finances, des dépenses publicitaires, etc., le tout sans les problèmes de conformité et les coûts de maintenance continus associés au fait de faire cavalier seul.

À mesure que les marchés, les réglementations et les sources de données changent, Improvado ajustera ses processus pour répondre aux demandes d'intégrité et de sécurité des données. C'est le choix idéal pour les entreprises qui apprécient la prise de décision basée sur les données.

Automatisez votre pipeline de données marketing avec Improvado

Explorer