Zbuduj vs. Kup ETL: czy budowanie ETL jest warte kłopotów z danymi?
Opublikowany: 2022-12-15W ciągu ostatniej dekady potrzeby przedsiębiorstw w zakresie danych ewoluowały bardzo szybko, a według szacunków światowy rynek danych osiągnie 180 zettabajtów do 2025 r.
W tej transformacji biznesowej solidna infrastruktura danych jest jednym z kluczowych elementów zapewniających, że duże ilości danych gromadzonych przez organizację nie pozostaną niewykorzystanym zasobem. W obliczu bariery technologicznej firmy stają przed dylematem: czy budować potok danych, czyli ETL, we własnym zakresie, czy kupić gotowe rozwiązanie.
Zrozumienie zalet i wad obu rozwiązań oraz tego, jakie zagrożenia dla reputacji i bezpieczeństwa stwarzają nieprawidłowe działanie potoków danych, pomoże Ci dokonać właściwego wyboru dla Twojej firmy.
Kluczowe dania na wynos
- Potoki ETL składają się z trzech odrębnych procesów: ekstrakcji danych, ich transformacji i ładowania danych do wybranego miejsca docelowego.
- Budowanie ETL wymaga dużych zasobów ludzkich, kosztów początkowych i ciągłej konserwacji.
- Zakup ETL zapewnia niemal natychmiastowy dostęp do najczęściej używanych źródeł danych przy mniejszej liczbie danych wejściowych ze strony Twoich zespołów.
- Gotowe potoki łatwo się skalują i spełniają wymagania zgodności branżowej.
- W miarę jak potencjalna wartość danych rośnie, firmy potrzebują szybkiego pozyskiwania danych, aby podejmować rozsądne decyzje biznesowe i zachować konkurencyjność.
Marketingowe bloki konstrukcyjne ETL
ETL, czyli wyodrębnianie, przekształcanie i ładowanie, to proces, w którym dane są wyodrębniane z jednego lub wielu źródeł, przekształcane, a następnie ładowane do punktu końcowego.
Przewodnik dla początkujących po procesach ETL: objaśnienie etapów ETL i korzyści
Głównymi komponentami zapewniającymi swobodny przepływ danych przez każdą fazę są:
- Łączniki źródła danych: Aby zebrać dane z Google Ads Manager, Shopify, Twitter Ads lub dowolnego innego źródła danych, musisz najpierw ustanowić łącznik, zwykle otwarty interfejs API. Niektóre aplikacje nie udostępniają otwartego interfejsu API ani nie używają plików RAW. Rozwiązanie ETL musi być w stanie przetwarzać wiele formatów danych.
- Warstwa ekstrakcji: skomplikowany program, który pobiera dane z lokalizacji źródłowych do obszaru przejściowego, gdzie czekają na następną fazę potoku. Warstwa ekstrakcji wykorzystuje interfejs API do pobierania danych, ale trudność polega na prawidłowym pobieraniu danych na czas, zgodnie z najnowszą wersją interfejsu API oraz wymaganiami wewnętrznymi i zewnętrznymi. Najważniejsze jest tutaj wsparcie warstwy ekstrakcyjnej trwałym stosem technologii. Duże działy marketingu mogą przetwarzać 50 000 wierszy danych i więcej. Jeśli backend nie może przetworzyć takiej ilości danych, ostateczny wynik może być uszkodzony lub zawierać niekompletne dane.
- Mechanizm transformacji: Pobiera surowe dane, często w bezużytecznych lub chaotycznych formatach, i ponownie formatuje je w spójne typy wartości, aby przygotować je do analizy. Najpopularniejsze rodzaje transformacji danych to czyszczenie, deduplikacja, standaryzacja i inne. Biorąc pod uwagę, że większość marketerów nie ma doświadczenia w SQL (często używanym do stosowania transformacji), silnik potrzebuje jasnego i zwięzłego interfejsu użytkownika.
- Logika ładowania: ostatni przystanek w potoku ETL, w którym przekształcone dane są ładowane do miejsca docelowego: narzędzia BI, wizualizacji lub analizy albo hurtowni danych. Jest wysoce użyteczny i powinien łatwo integrować się z wybranym rozwiązaniem do wizualizacji.
Wszystkie wymienione powyżej komponenty powinny również skalować się wraz ze wzrostem firmy i jej potrzeb w zakresie danych.
To jest ogólny opis bloków konstrukcyjnych systemu ETL. Pytanie, czy kodować je ręcznie, czy zdecydować się na zakup gotowego rozwiązania.
Inwestycja początkowa zakupu a budowanie ETL
Koszt ETL to znacznie więcej niż tylko cena.
Budowanie ETL
Inżynieria przepustowości i kosztów to pierwsze rzeczy, które należy wziąć pod uwagę. Ukończenie projektu tej wielkości i złożoności zajmie miesiące, a koszty wzrosną.
Ponadto większość projektów ETL wymaga znacznej ilości miejsca w chmurze w hurtowni danych, co stanowi koszt zarówno w scenariuszach budowy, jak i zakupu. Jednak budując własną hurtownię danych, należy również zrozumieć logistykę pozyskiwania dodatkowych usług zarządzania hurtownią danych, w tym budżet na koszty zwiększania i zmniejszania skali w razie potrzeby.
Po utworzeniu i wdrożeniu systemu spodziewaj się poświęcenia czasu i budżetu na materiały szkoleniowe, aby Twoje zespoły były na bieżąco z tym, jak przeprowadzać transformacje, łączyć źródła danych i jak najlepiej wykorzystywać prezentowane dane.
Kupię ETL
Koszt zakupu ETL jest nieco prostszy. Masz jedną miesięczną lub roczną cenę abonamentu, więc nie musisz zapewniać personelu programistycznego, uaktualnień usług w chmurze ani obszernych szkoleń, aby zrozumieć infrastrukturę ETL.
Dołączone są zasoby wprowadzające, takie jak podręczniki użytkownika i dokumentacja techniczna. Stale dodawane są nowe dokumenty szkoleniowe, dzięki czemu nie będziesz musiał korzystać z dodatkowych zasobów wewnętrznych.
Złożoność rozwoju
Budowa potoku ETL sama w sobie jest pracochłonnym i trudnym technicznie zadaniem. Zbudowanie ETL dla działu marketingu wymaga wiedzy marketingowej, której mogą brakować programiści wywodzący się z zespołów produktowych.
Budowanie ETL
Podczas tworzenia ETL programiści poświęcają dużo czasu i energii na wstępne połączenie źródeł danych. Następnie interfejsy API często wymagają ulepszeń, aby działały w twoich systemach domowych, jeśli w ogóle są oferowane. Jest również prawdopodobne, że platforma nie będzie miała interfejsu API, co zmusi programistów do pobierania danych w inny sposób.
Co się stanie, gdy zidentyfikujesz źródło danych do uwzględnienia w potoku? Integracja danych może zająć do 6,5 tygodnia czasu wdrożenia, przy założeniu, że nie wystąpią żadne błędy, a Twoja infrastruktura jest aktualna i bezpieczna.
Gdy dodawane są nowe łączniki API, spodziewaj się więcej czasu oczekiwania na te dane, ponieważ nie są one zdarzeniami typu plug-and-play. Spodziewaj się, że od czasu do czasu wkradną się tam potencjalnie złe dane, ponieważ ludzie popełniają błędy.
A to tylko jeden element potoku ETL.
Kupię ETL
Zakup ETL uwalnia Ciebie i Twój zespół programistów od długiej listy zadań związanych z tworzeniem lub dostosowywaniem każdego używanego interfejsu API, każdej zastosowanej transformacji lub miejsca docelowego, z którym się łączysz.
Wróćmy do przykładowego interfejsu API: po skonfigurowaniu potoku możesz wybrać źródła danych z listy i połączyć się za pomocą kilku kliknięć. W miarę dodawania nowych łączników źródeł danych uzyskiwanie dostępu do danych i przeglądanie ich jest niemal natychmiastowe.
Co się stanie, jeśli chcesz pobrać dane z aplikacji, której dostawca nie obsługuje? Renomowane firmy również sobie z tym poradzą — w znacznie krótszym czasie, niż gdyby twoi programiści tworzyli łącznik. Na przykład Improvado ma system kredytowy Data Extraction Customization Services (DECS). Klient otrzymuje kredyty DECS o wartości 20% swojego planu rozliczeniowego i może je wykorzystać na niestandardowe interfejsy API, przetwarzanie plików i inne potrzeby związane z ekstrakcją.

Koszty utrzymania
Wszystko wymaga konserwacji, a potok ETL nie jest wyjątkiem.
Budowanie ETL
Bez względu na to, co robisz, za każdym razem, gdy konserwujesz swoją technologię, zakładane są nowe koszty. Dzieje się tak, gdy:
- Źródła danych zmieniają metody wyjścia lub połączenia, co zdarza się dość często. Na przykład interfejs API Google Ads traci na wartości wraz z wydaniem każdej nowej wersji, co nie pozostawia innego wyboru niż migracja do nowego interfejsu API. A średni czas życia wersji to 12 miesięcy.
- Zmienia się sposób korzystania z danych.
- Jak dane, których używasz, zmieniają się w odniesieniu do innych danych.
- Środki zgodności wymagają aktualizacji procesów lub przechowywania danych.
Pomoc w migracji danych do wewnętrznych potoków jest tak potrzebna, że całe firmy zostały zbudowane na tego rodzaju wsparciu.
Kupię ETL
Co się stanie, gdy kupisz rurociąg i coś trzeba będzie naprawić? Dostawca obsługuje to automatycznie w ramach procesu aktualizacji. W miarę jak zmieniają się dane wyjściowe źródła danych, technologia jest aktualizowana dla Ciebie, a przepisy branżowe również pozostają na pierwszym miejscu.
Zakup potoku danych zapewnia dostęp do zespołów pomocy technicznej, które mogą pomóc w przypadku wszelkich próśb technicznych lub problemów, które możesz napotkać, zmniejszając w ten sposób problemy związane z konserwacją w miarę skalowania.
Koszt alternatywny
Dane tracą wartość z upływem czasu, jak potwierdzono w tym artykule na temat czasu i nietrwałości. Każda chwila spędzona na budowaniu lub ulepszaniu potoków i niezbieranie użytecznych danych prowadzi do zmniejszenia wartości tych danych dla Twojej firmy.
Budowanie ETL
Długie czasy wdrażania — w tym testowania i wdrażania — oznaczają, że dane giną, gdy wymyślasz coś. To sprawi, że będziesz mniej konkurencyjny niż inne firmy w Twojej branży, które mogą mieć dane gotowe do użycia za naciśnięciem jednego przycisku.
Nierzadko zdarza się, że ETL zajmuje miesiące, a nawet lata, od etapu koncepcji do uzyskania użytecznych danych. Jeśli inne firmy w Twojej niszy już działają w oparciu o dane, pozostanie w tyle nie potrwa długo.
Kupię ETL
Tylko Ty możesz określić, co oznaczają dla Ciebie dane biznesowe, ale globalny rynek oprogramowania do analityki biznesowej osiągnął w 2019 r. wartość 67 miliardów dolarów. Przy tak dużych inwestycjach w przechwytywanie i analizowanie danych firmy, które przeskakują na początek kolejki z zakupionym potokiem danych, mogą tworzyć większą wartość niż konkurenci.
Dysponując potokiem gotowym do rozpowszechniania danych, możesz go natychmiast użyć w sposób, który najlepiej pokieruje Twoimi decyzjami biznesowymi.
Ryzyka i inne problemy związane z bezpieczeństwem
Niewiarygodne 21% plików biznesowych przechowywanych w chmurze zawiera poufne dane. Twój wybór potoku danych powinien uwzględniać, ile danych może być zagrożonych bez rygorystycznych środków bezpieczeństwa.
Budowanie ETL
Ciągłe zmiany przepisów dotyczących zgodności, takich jak opieka zdrowotna lub finanse, oznaczają ciągłe aktualizacje potoku i możliwy koszmar konserwacyjny, aby zachować zgodność z prawem i chronić ważne dane klientów i partnerów. Sam koszt audytów danych może zniekształcić cenę rozwoju potoku, ale dodanie potencjalnych kar za naruszenie zasad ochrony danych i zgodności jest również prawdziwym ryzykiem finansowym i reputacyjnym.
Kupię ETL
Gotowy potok zapewnia zgodność i nie ma potrzeby, aby programiści poznawali najlepsze praktyki regulacyjne poza swoimi kompetencjami, a następnie dostosowywali rzeczy, aby były zgodne.
W miarę jak zmieniają się wymagania branżowe, takie jak HIPAA lub SOC 2, Twój potok automatycznie aktualizuje się, aby je spełnić, nawet w przypadkach, gdy sam nie śledzisz zmian.
Branża bankowa, opieka zdrowotna i usługi społeczne to wiele, za którymi trzeba nadążyć. Nie możesz nawet zacząć przewidywać, jak zmieniające się przepisy wywierają presję na Twoje zespoły, aby zachowywały zgodność, ale gotowy potok eliminuje ten stres.
Wydajność i skalowalność
Na wydajność wpływa wiele czynników, od infrastruktury po błąd ludzki.
Budowanie ETL
Kiedy tworzysz własny ETL, proces jest pełen możliwości popełnienia błędu ludzkiego. . Na przykład wystarczy jeden błąd ortograficzny, aby wykoleić całe źródło danych.
Ponadto każde nowe źródło wymaga napisania nowego kodu, przetestowania, wdrożenia i konwersji formatu — jest to bardzo nieefektywne wykorzystanie czasu programistów, które może zniechęcić do skalowania w kluczowych momentach.
Możesz zauważyć opóźnienia w uzyskiwaniu wyników danych z powodu błędów połączenia z chmurą lub zasobów przetwarzania po Twojej stronie. Ponosisz wyłączną odpowiedzialność za utrzymanie prawidłowego działania.
Kupię ETL
Infrastruktura jest przekazywana dostawcy, więc nie musisz utrzymywać wszystkich zasobów przetwarzania w chmurze na miejscu ani płacić za wielu dostawców usług w chmurze. W dowolnym momencie możesz też skalować w górę, aby uzyskać dostęp do większej liczby wierszy, łączników i nie tylko.
Dlaczego ETL nie powinien być majsterkowaniem
Wielu liderów biznesu jest innowacyjnych, zdolnych i zmotywowanych do samodzielnego podejścia do potoków ETL. Biorąc pod uwagę niepewność rynków pracy, wysokie koszty zasobów i niezaprzeczalny fakt, że dane ulegają degradacji w czasie, czekanie na samodzielne załatwienie spraw może postawić Cię w niekorzystnej sytuacji rynkowej.
Wybór gotowego ETL od Improvado zapewnia dostęp do świeżych danych, dzięki czemu możesz podejmować ważne decyzje biznesowe dotyczące dzisiejszych rynków.
Dzięki ponad 300 integracjom danych (i rosnącym) możesz mieszać i dopasowywać źródła, aby uzyskać pełny wgląd w podróże klientów, finanse, wydatki na reklamę i nie tylko, a wszystko to bez problemów związanych ze zgodnością i bieżącymi kosztami utrzymania związanymi z samodzielnym działaniem.
W miarę jak zmieniają się rynki, przepisy i źródła danych, Improvado dostosuje swoje procesy, aby nadążyć za wymaganiami dotyczącymi integralności danych i bezpieczeństwa. To idealny wybór dla firm, które cenią sobie podejmowanie decyzji w oparciu o dane.



