Bauen vs. ETL kaufen: Ist es den Datenaufwand wert, ein ETL zu erstellen?

Veröffentlicht: 2022-12-15

Der Datenbedarf von Unternehmen hat sich in den letzten zehn Jahren sehr schnell entwickelt, wobei Schätzungen zufolge der globale Datenmarkt bis 2025 180 Zettabyte erreichen wird.

Bei dieser geschäftlichen Transformation ist eine robuste Dateninfrastruktur eines der Schlüsselelemente, um sicherzustellen, dass die großen Datenmengen, die ein Unternehmen sammelt, kein ungenutztes Gut bleiben. Angesichts einer technologischen Barriere stehen Unternehmen vor einem Dilemma: ob sie eine Datenpipeline, nämlich ETL, intern aufbauen oder eine fertige Lösung kaufen sollen.

Wenn Sie die Vor- und Nachteile beider Lösungen verstehen und wissen, welche Reputations- und Sicherheitsrisiken Fehlfunktionen in Datenpipelines darstellen, können Sie die richtige Wahl für Ihr Unternehmen treffen.

Die zentralen Thesen

  • ETL-Pipelines bestehen aus drei unterschiedlichen Prozessen: der Extraktion von Daten, ihrer Transformation und dem Laden von Daten an das von Ihnen gewählte Ziel.
  • Der Aufbau eines ETL erfordert umfangreiche Personalressourcen, Vorabkosten und kontinuierliche Wartung.
  • Durch den Kauf einer ETL erhalten Sie nahezu sofortigen Zugriff auf die am häufigsten verwendeten Datenquellen mit weniger Eingaben Ihrer Teams.
  • Vorgefertigte Pipelines lassen sich einfach skalieren und erfüllen die branchenspezifischen Compliance-Anforderungen.
  • Da der potenzielle Wert von Daten zunimmt, benötigen Unternehmen schnelle Datengewinne, um fundierte Geschäftsentscheidungen zu treffen und wettbewerbsfähig zu bleiben.

Marketing-ETL-Bausteine

ETL oder Extrahieren, Transformieren und Laden ist der Prozess, bei dem Daten aus einer oder mehreren Quellen extrahiert, transformiert und dann in einen Endpunkt geladen werden.

Ein Leitfaden für Anfänger zu ETL-Prozessen: ETL-Stufen und Vorteile erklärt

Die Hauptkomponenten, die den freien Datenfluss in jeder Phase sicherstellen, sind:

  • Konnektoren für Datenquellen: Um Daten von Google Ads Manager, Shopify, Twitter Ads oder einer anderen Datenquelle zu sammeln, müssen Sie zunächst einen Konnektor einrichten, normalerweise eine offene API. Einige Anwendungen bieten keine offene API oder verwenden Rohdateien. Eine ETL-Lösung muss mehrere Datenformate verarbeiten können.
  • Extraktionsschicht: Eine komplizierte Software, die Daten von Quellstandorten in einen Staging-Bereich zieht, wo sie auf die nächste Phase in der Pipeline warten. Die Extraktionsebene nutzt die API zum Abrufen von Daten, aber die Schwierigkeit besteht darin, die Daten korrekt und rechtzeitig gemäß der neuesten API-Version sowie internen und externen Anforderungen abzurufen. Das Entscheidende dabei ist, die Extraktionsschicht mit einem langlebigen Tech-Stack zu unterstützen. Große Marketingabteilungen können 50.000 Datenzeilen und mehr aufnehmen. Wenn das Back-End diese Datenmenge nicht verarbeiten kann, ist die endgültige Ausgabe möglicherweise gebrochen oder enthält unvollständige Daten.
  • Transformations-Engine: Nimmt Rohdaten, oft in unbrauchbaren oder unzusammenhängenden Formaten, und formatiert sie in konsistente Werttypen um, um sie für die Analyse vorzubereiten. Zu den häufigsten Arten der Datentransformation gehören Bereinigung, Deduplizierung, Standardisierung und mehr. In Anbetracht der Tatsache, dass die meisten Marketingspezialisten keine Erfahrung mit SQL haben (häufig zum Anwenden von Transformationen verwendet), benötigt die Engine eine klare und prägnante Benutzeroberfläche.
  • Ladelogik: Die letzte Station der ETL-Pipeline, wo transformierte Daten an ihr endgültiges Ziel geladen werden: ein BI-, Visualisierungs- oder Analysetool oder ein Data Warehouse. Es ist sehr benutzerfreundlich und sollte sich leicht in die Visualisierungslösung Ihrer Wahl integrieren lassen.

Alle oben genannten Komponenten sollten auch mit dem Wachstum des Unternehmens und seines Datenbedarfs skalieren.

ETL ist der Prozess, Daten aus einer oder mehreren Quellen zu kombinieren und in eine einzige Datenbank zu laden.
Drei Schritte, aus denen eine ETL besteht: Extrahieren, Transformieren und Laden

Dies ist eine allgemeine Beschreibung der Bausteine ​​des ETL-Systems. Die Frage ist, ob Sie sie von Hand codieren oder sich für den Kauf einer fertigen Lösung entscheiden sollten.

Vorabinvestition für den Kauf vs. Aufbau eines ETL

Bei den Kosten für eine ETL geht es um so viel mehr als nur den Preis.

Aufbau einer ETL

Engineering-Bandbreite und -Kosten sind die ersten Dinge, die berücksichtigt werden müssen. Die Fertigstellung eines Projekts dieser Größe und Komplexität wird Monate dauern, und die Kosten häufen sich.

Darüber hinaus erfordern die meisten ETL-Projekte eine erhebliche Menge an Cloud-Speicher in einem Data Warehouse, was sowohl beim Aufbau als auch beim Kauf Kosten verursacht. Wenn Sie jedoch Ihr eigenes erstellen, müssen Sie auch die Logistik für die Beschaffung zusätzlicher Data-Warehouse-Verwaltungsdienste herausfinden, einschließlich der Budgetierung für die Kosten für die Auf- und Abwärtsskalierung bei Bedarf.

Nachdem Sie das System erstellt und implementiert haben, müssen Sie Zeit und Budget für Schulungsmaterialien aufwenden, um Ihre Teams auf dem Laufenden zu halten, wie sie Transformationen durchführen, Datenquellen verbinden und das Beste aus den präsentierten Daten herausholen können.

ETL kaufen

Die Kosten für den Kauf eines ETL sind etwas einfacher. Sie haben einen monatlichen oder jährlichen Serviceplanpreis, sodass Sie kein Entwicklungspersonal, Cloud-Service-Upgrades oder umfangreiche Schulungen zum Verständnis der ETL-Infrastruktur aufbringen müssen.

Onboarding-Ressourcen wie Benutzerhandbücher und technische Dokumentation sind enthalten. Es werden ständig neue Schulungsunterlagen hinzugefügt, sodass Sie keine zusätzlichen internen Ressourcen verwenden müssen.

Gewinnen Sie Erkenntnisse aus Daten, ohne sich um die Datenbeschaffung kümmern zu müssen

Erkunden

Entwicklungskomplexität

Der Aufbau einer ETL-Pipeline ist an sich schon eine arbeitsintensive, technisch anspruchsvolle Aufgabe. Der Aufbau eines ETL für eine Marketingabteilung erfordert Marketing-Expertise, die Entwicklern aus Produktteams möglicherweise fehlt.

Aufbau einer ETL

Bei der Erstellung Ihrer ETL investieren Entwickler viel Zeit und Energie in die erstmalige Anbindung von Datenquellen. Dann müssen APIs oft optimiert werden, um für Ihre selbst entwickelten Systeme zu funktionieren, wenn APIs überhaupt angeboten werden. Es ist auch wahrscheinlich, dass eine Plattform keine API hat, was Ihre Entwickler dazu zwingt, Daten auf andere Weise abzurufen.

Was passiert, wenn Sie eine Datenquelle identifizieren, die in Ihre Pipeline aufgenommen werden soll? Datenintegrationen können bis zu 6,5 Wochen Implementierungszeit in Anspruch nehmen, vorausgesetzt, dass keine Fehler auftreten und Ihre Infrastruktur auf dem neuesten Stand und sicher ist.

Wenn neue API-Konnektoren hinzugefügt werden, müssen Sie mit mehr Zeit für das Warten auf diese Daten rechnen, da es sich nicht um ein Plug-and-Play-Ereignis handelt. Erwarten Sie, dass sich von Zeit zu Zeit einige möglicherweise schlechte Daten einschleichen, da Menschen Fehler machen.

Und das ist nur eine Komponente der ETL-Pipeline.

ETL kaufen

Der Kauf einer ETL befreit Sie und Ihr Entwicklungsteam von der langen To-do-Liste der Erstellung oder Anpassung jeder API, die Sie verwenden, jeder Transformation, die Sie anwenden, oder des Ziels, das Sie verbinden.

Zurück zum API-Beispiel: Sobald die Pipeline eingerichtet ist, können Sie Ihre Datenquellen aus der Liste auswählen und sich mit wenigen Klicks verbinden. Wenn neue Datenquellen-Konnektoren hinzugefügt werden, erfolgt der Zugriff auf und die Anzeige von Daten fast sofort.

Was passiert, wenn Sie Daten aus einer Anwendung abrufen möchten, die der Anbieter nicht unterstützt? Seriöse Unternehmen können diese ebenfalls bewältigen – in weitaus kürzerer Zeit, als wenn Ihre Entwickler den Konnektor erstellen würden. Improvado verfügt beispielsweise über ein Credit-System für Data Extraction Customization Services (DECS). Ein Kunde erhält DECS-Guthaben im Wert von 20 % seines Abrechnungsplans und kann dieses Guthaben für benutzerdefinierte APIs, Dateiaufnahme und andere Extraktionsanforderungen verwenden.

Instandhaltungskosten

Alles muss gewartet werden, und Ihre ETL-Pipeline ist da keine Ausnahme.

Aufbau einer ETL

Egal was Sie tun, bei jeder Wartung Ihrer Technik werden neue Kosten angenommen. Dies passiert, wenn:

  • Datenquellen ändern die Ausgabe- oder Verbindungsmethoden, was ziemlich häufig vorkommt. Beispielsweise verliert die Google Ads-API mit der Veröffentlichung jeder neuen Version an Wert, sodass keine andere Wahl bleibt, als auf eine neue API zu migrieren. Und die durchschnittliche Lebensdauer einer Version beträgt 12 Monate.
  • Die Art und Weise, wie Sie Daten verwenden, ändert sich.
  • Wie sich die von Ihnen verwendeten Daten gegenüber anderen Daten ändern.
  • Compliance-Maßnahmen erfordern, dass Sie Ihre Prozesse oder Datenspeicherung aktualisieren.

Es besteht ein solcher Bedarf an Unterstützung bei der Unterstützung interner Pipelines bei der Datenmigration, dass ganze Unternehmen auf dieser Art von Unterstützung aufgebaut wurden.

ETL kaufen

Was passiert, wenn Sie Ihre Pipeline kaufen und etwas repariert werden muss? Der Anbieter behandelt es automatisch als Teil seines Aktualisierungsprozesses. Wenn sich die Ausgaben der Datenquelle ändern, wird die Technologie für Sie aktualisiert, und auch die Branchenvorschriften bleiben im Auge.

Durch den Kauf einer Datenpipeline erhalten Sie Zugang zu Supportteams, die Ihnen bei technischen Anfragen oder Problemen helfen, auf die Sie möglicherweise stoßen, und reduzieren so die Wartungsprobleme bei der Skalierung.

Opportunitätskosten

Daten verlieren im Laufe der Zeit an Wert, wie in diesem Artikel über Zeit und Vergänglichkeit anerkannt wird. Jeder Moment, den Sie damit verbringen, Pipelines zu erstellen oder zu optimieren, ohne verwertbare Daten zu sammeln, führt zu einer Wertminderung dieser Daten für Ihr Unternehmen.

Aufbau einer ETL

Der Aufbau und die Wartung eines ETL im eigenen Haus ist eine ressourcenintensive Aufgabe.
Was es braucht, um eine ETL-Pipeline intern aufzubauen und zu warten.

Lange Rollout-Zeiten – einschließlich Tests und Bereitstellung – bedeuten, dass Daten vernichtet werden, während Sie sich Gedanken machen. Dadurch sind Sie weniger wettbewerbsfähig als andere Unternehmen in Ihrer Branche, die möglicherweise Daten auf Knopfdruck einsatzbereit haben.

Es ist nicht ungewöhnlich, dass ein ETL Monate oder sogar Jahre von der Konzeptphase bis zur Bereitstellung nutzbarer Daten dauert. Wenn andere Unternehmen in Ihrer Nische bereits auf Daten reagieren, wird es nicht lange dauern, bis Sie ins Hintertreffen geraten.

ETL kaufen

Nur Sie können definieren, was Geschäftsdaten für Sie bedeuten, aber der globale Markt für Business Analytics-Software erreichte 2019 67 Milliarden US-Dollar. Mit so viel Investition in die Erfassung und Analyse von Daten können Unternehmen, die mit einer gekauften Datenpipeline an die Spitze springen, etwas schaffen mehr Wert als die Konkurrenz.

Mit einer Pipeline, die bereit ist, Daten zu verbreiten, können Sie sie sofort so verwenden, wie es Ihre Geschäftsentscheidungen am besten leitet.

Risiken und andere Sicherheitsbedenken

Unglaubliche 21 % der in der Cloud gespeicherten Geschäftsdateien enthalten sensible Daten. Ihre Wahl der Datenpipeline sollte berücksichtigen, wie viele Ihrer Daten ohne strenge Sicherheitsmaßnahmen gefährdet sein könnten.

Aufbau einer ETL

Ständige Änderungen der Compliance-Vorschriften, wie z. B. im Gesundheitswesen oder im Finanzwesen, bedeuten kontinuierliche Aktualisierungen Ihrer Pipeline und einen möglichen Wartungsalptraum, um legal zu bleiben und die wichtigen Daten Ihrer Kunden und Partner zu schützen. Allein die Kosten für Datenprüfungen können den Preis der Pipeline-Entwicklung verzerren, aber die potenziellen Bußgelder für die Verletzung von Datenschutz- und Compliance-Regeln sind auch ein echtes finanzielles und Reputationsrisiko.

ETL kaufen

Mit einer vorgefertigten Pipeline ist die Compliance integriert, und Ihre Entwickler müssen keine regulatorischen Best Practices außerhalb ihrer Kompetenzen lernen und dann die Dinge optimieren, um konform zu sein.

Wenn sich Branchenanforderungen wie HIPAA oder SOC 2 ändern, wird Ihre Pipeline automatisch aktualisiert, um sie zu erfüllen, selbst in Fällen, in denen Sie die Änderungen nicht selbst verfolgen.

Banken, das Gesundheitswesen und die Sozialdienstleistungsbranchen sind eine Menge, mit denen man Schritt halten muss. Sie können nicht einmal ansatzweise ahnen, wie sich ändernde Vorschriften auf Ihre Teams drängen, die Vorschriften einzuhalten, aber eine vorgefertigte Pipeline nimmt Ihnen diesen Stress ab.

Datenkultur ist wichtig. Lernen Sie, es in Ihrer Organisation zu fördern.

KOSTENLOSER LEITFADEN

Leistung und Skalierbarkeit

Viele Faktoren beeinflussen die Leistung, von der Infrastruktur bis hin zu menschlichen Fehlern.

Aufbau einer ETL

Wenn Sie Ihr eigenes ETL erstellen, ist der Prozess voller Möglichkeiten für menschliche Fehler. . Beispielsweise reicht ein einziger Rechtschreibfehler aus, um eine ganze Datenquelle zu entgleisen.

Darüber hinaus erfordert jede neue Quelle das Schreiben von neuem Code, Tests, Bereitstellung und Formatkonvertierung – eine sehr ineffiziente Nutzung der Zeit Ihrer Entwickler, die eine Skalierung in entscheidenden Momenten verhindern könnte.

Möglicherweise treten Verzögerungen beim Abrufen von Datenergebnissen aufgrund von Cloud-Verbindungsfehlern oder Verarbeitungsressourcen auf Ihrer Seite auf. Sie sind allein dafür verantwortlich, dass alles gut läuft.

ETL kaufen

Die Infrastruktur wird auf den Anbieter übertragen, sodass Sie nicht damit beauftragt sind, alle Cloud-Computing-Ressourcen vor Ort zu halten oder für mehrere Cloud-Anbieter zu bezahlen. Sie können auch jederzeit hochskalieren, um Zugriff auf mehr Zeilen, Konnektoren und mehr zu erhalten.

Warum ETL kein DIY sein sollte

Viele Führungskräfte sind innovativ, geschickt und motiviert, einen Do-it-yourself-Ansatz für ETL-Pipelines zu verfolgen. Angesichts der Ungewissheit auf den Arbeitsmärkten, der hohen Ressourcenkosten und der unbestreitbaren Tatsache, dass sich Daten im Laufe der Zeit verschlechtern, kann es Ihnen einen erheblichen Marktnachteil einbringen, darauf zu warten, die Dinge selbst zu erledigen.

Vergleichen Sie die Build- vs. Buy-ETL-Ansätze nach Kosten, Zeit, Skalierbarkeit und Opportunitätskosten.
Direkter Vergleich der Build-and-Buy-Ansätze.

Wenn Sie sich für eine vorgefertigte ETL von Improvado entscheiden, erhalten Sie Zugriff auf aktuelle Daten, die Sie in die Lage versetzen, wichtige Geschäftsentscheidungen über die heutigen Märkte zu treffen.

Mit über 300 Datenintegrationen (und es werden mehr) können Sie Quellen mischen und abgleichen, um einen vollständigen Überblick über Kundenreisen, Finanzen, Werbeausgaben und mehr zu erhalten, und das alles ohne die Compliance-Kopfschmerzen und laufenden Wartungskosten, die mit einem Alleingang verbunden sind.

Da sich die Märkte, Vorschriften und Datenquellen ändern, passt Improvado seine Prozesse an, um mit Datenintegritäts- und Sicherheitsanforderungen Schritt zu halten. Es ist die ideale Wahl für Unternehmen, die Wert auf datengesteuerte Entscheidungsfindung legen.

Automatisieren Sie Ihre Marketingdaten-Pipeline mit Improvado

Erkunden