Jak stworzyć nowoczesny stos danych

Opublikowany: 2022-05-06

W dzisiejszej gospodarce opartej na technologii przechowywanie danych stało się bardziej złożone niż kiedykolwiek. Według IDC (International Data Corporation), w 2025 r. zostanie wygenerowanych 175 Zettabajtów danych, co stanowi prawie trzykrotność ilości wygenerowanej w 2021 r. (61 Zettabajtów).

Wykres ilości danych utworzonych
Wykres ilości danych utworzonych

Ilość danych utworzonych, przechwyconych, skopiowanych i wykorzystanych na całym świecie od 2010 do 2025 z Statista

Jeśli chcesz prawidłowo przechowywać informacje o firmie i zarządzać nimi, musisz zrozumieć wiele dostępnych opcji i sposoby ich integracji.

Na szczęście ten przewodnik pomoże Ci zbudować nowoczesny stos danych, który pozwoli Ci zbierać, przechowywać, analizować i ostatecznie wykorzystywać Twoje dane w najbardziej efektywny sposób. Ten plan jest na tyle elastyczny, że może być używany przez firmy na każdym etapie rozwoju, bez względu na ich wielkość czy branżę.

Dlaczego potrzebujesz nowoczesnego stosu danych?

Nowoczesny stos danych to zintegrowany zestaw narzędzi do obsługi całego cyklu życia danych. Jest przeznaczony do zbierania, przetwarzania i aktywowania informacji w czasie rzeczywistym. Jest niezbędny dla każdej organizacji, która chce zrozumieć trendy na poziomie szczegółowym (np. w organizacji klienta) i działać na nie, zanim zostaną one trwale utrwalone.

Stworzenie nowoczesnego stosu danych nie jest trudne, ale wymaga trochę czasu i zaangażowania oraz zrozumienia dokładnie tego, czego potrzebujesz od swoich danych. Jeśli poważnie myślisz o poprawie operacji i zdobywaniu wglądu w swoich klientów, każda minuta wysiłku będzie warta każdej minuty. Sztuką jest wiedzieć, od czego zacząć i jak iść do przodu.

Pozostała część tego przewodnika zawiera wszystkie informacje potrzebne do stworzenia nowoczesnego stosu danych. Dowiesz się, jak różne komponenty współpracują ze sobą i jak wybrać oprogramowanie dla każdej części nowoczesnego stosu danych. Gdy skończysz czytać, będziesz mieć wszystko, czego potrzebujesz, aby już dziś rozpocząć tworzenie nowoczesnego stosu danych w swojej organizacji!

„Z perspektywy danych hurtownie danych to prawdziwa kopalnia złota. Udostępnienie go rozwiązaniom zintegrowanym wertykalnie leży u podstaw idei chmury branżowej”.

Ashish Takoo

Jeziora danych i hurtownie danych: dwie strony nowoczesnej platformy danych w chmurze

Korzyści z nowoczesnego stosu danych

Po co inwestować w nowoczesny stos danych? Oto kilka korzyści:

  • Łatwo wyodrębniaj i ładuj swoje dane w ciągu kilku minut do dowolnego miejsca docelowego.
  • Analizuj duże ilości nieustrukturyzowanych danych — dokumenty, wyniki wyszukiwania, różne metryki itp. — bez uciekania się do pisania niestandardowych skryptów lub tworzenia zapytań ad hoc.
  • Pozwól każdemu zespołowi biznesowemu na samodzielną obsługę, korzystając z operacyjnych, zaufanych i aktualnych danych we własnych narzędziach.
  • Szybciej wdrażaj innowacje w swojej organizacji, integrując narzędzia niewymagające kodu dla zespołów biznesowych
  • Nowoczesne stosy danych zmniejszają nakłady związane z inżynierią danych, eliminując potrzebę budowania i utrzymywania potoku danych.

Zrozumieć obecne środowisko

Pierwszym krokiem do zaprojektowania dowolnego rozwiązania jest zrozumienie, co próbujesz naprawić. Cofnij się i spójrz, jakich narzędzi, procesów i procedur używa obecnie Twoja organizacja. Następnie zadaj sobie pytanie: czy są wydajne? Czy jest miejsce na poprawę?

W nowoczesnym stosie danych chodzi o wydajność, więc jeśli w bieżącym procesie występują nieefektywności (a uwierz mi, są), jest to obszar, w którym można usprawnić.

W niektórych przypadkach może to być tak proste, jak zwiększenie współpracy między zespołami lub aktualizacja procesów, ale czasami może to oznaczać wymianę przestarzałego oprogramowania lub nawet wprowadzenie nowej technologii do środowiska.

Cokolwiek to jest, zacznij od dokładnego zdefiniowania problemów, które rozwiązujesz, zanim przejdziesz do dalszych prac projektowych. Znacznie ułatwi to wdrożenie w przyszłości.

Zidentyfikuj potrzeby i cele biznesowe

Zanim wybierzesz bazę danych dla swojej firmy, musisz zrozumieć jej model danych, jakiego rodzaju zapytań i raportowania będzie potrzebować i kto będzie z niej korzystał. Uzyskanie odpowiedzi na te pytania pomoże również Twojej firmie rozpocząć planowanie z góry (zamiast wprowadzać zmiany w przyszłości).

Jednym z kluczowych pytań jest to, jak duży musi być Twój magazyn danych. Na przykład w scenariuszu OLAP (przetwarzanie analityczne online) będziesz mieć wiele wierszy, ale niewiele danych w każdym z nich - ale w scenariuszu przetwarzania transakcji online (OLTP) będziesz mieć wiele wierszy z ogromnymi ilościami danych w każdym rzędzie wymaga dużo więcej miejsca do przechowywania. Do tego dochodzą potrzeby raportowania Business Intelligence (BI), które wymagają jeszcze większej przestrzeni. W takich przypadkach BigQuery to idealna pamięć masowa, która naprawdę dobrze poradzi sobie ze wszystkimi trzema scenariuszami.

Kolejną rzeczą do przemyślenia jest to, czy chcesz korzystać z pamięci masowej w chmurze, czy lokalnie. Dlatego jeśli zainwestowałeś już w infrastrukturę lokalną, Google Cloud Platform może nie być dla Ciebie.

Oblicz skalowalność i wydajność

Wybierając dostawcę chmury, należy wziąć pod uwagę, czy Twoja aplikacja będzie skalować się i działać zgodnie z oczekiwaniami w miarę upływu czasu.

Kolejną kluczową rzeczą jest zrozumienie, w jaki sposób Twoje dane będą chronione w każdym środowisku (na przykład w centrach danych mogą wystąpić klęski żywiołowe, przerwy w dostawie prądu lub awarie sprzętu).

Podobnie jak w przypadku wszystkich tych kroków, niezbędne są badania i zadawanie pytań. Firmy takie jak New Relic oferują narzędzia, które mogą pomóc w monitorowaniu wydajności aplikacji i ruchu.

Co więcej, organizacje takie jak Netflix stworzyły technologie open source zaprojektowane specjalnie dla nowoczesnych aplikacji działających w chmurach publicznych. Na przykład Netflix opracował Security Monkey, oprogramowanie, które pomaga monitorować i zabezpieczać duże środowiska oparte na AWS.

Warto zagłębić się w te technologie podczas oceny dostawców chmury — tego rodzaju wiedza pochodzi z rozmów z inżynierami z różnych firm i zrozumienia ich doświadczeń.

Nowoczesny wykres komponentów stosu danych
Nowoczesne komponenty stosu danych od Neptune

Składniki nowoczesnego stosu danych

Dane to strategiczny zasób. Aby jak najlepiej go wykorzystać, musisz zrozumieć różne komponenty tworzące stos danych i ich współpracę.

Oto kluczowe elementy stosu danych, które należy uwzględnić podczas projektowania własnej infrastruktury danych dla produktu:

  1. Pozyskiwanie danych
  2. Przechowywanie danych
  3. Transformacja danych
  4. Analityka danych
  5. Zarządzanie danymi

1. Pozyskiwanie danych

Pozyskiwanie danych to importowanie danych z jednej lokalizacji do nowego miejsca docelowego, takiego jak hurtownia danych lub jezioro danych, w celu dalszego przechowywania i analizy.

Pierwszym krokiem w tworzeniu nowoczesnego stosu danych jest identyfikacja źródeł danych. Dzięki narzędziom do pozyskiwania danych będziesz mógł zaimportować wszystkie swoje dane w ciągu kilku minut.

Załóżmy, że prowadzisz firmę e-commerce, zapytania muszą ograniczać się do sprzedawanych produktów i ich odmian. Nie chcesz, aby setki zapytań dziennie trafiały do ​​Twojej bazy danych, ponieważ ktoś pytał o przedmiot, którego nawet nie kupił. Klasyfikuj i filtruj swoje produkty według grupy klientów, SKU lub innych filtrów i zapewniaj przyjazny dla użytkownika dostęp za pomocą przycisku „Odwiedź mój sklep”, aby klienci mogli łatwo pobrać historię zamówień dokonanych w Twojej witrynie.

Przykładowe narzędzia: Impprovado, Fivetran, Stitch, Airflow

️Nasza lista 16 najlepszych narzędzi do pozyskiwania danych pomoże Ci wybrać najlepsze narzędzie dla Twojego stosu danych️

2. Przechowywanie danych

Wraz z rozwojem aplikacji i mikrousług natywnych dla chmury większość firm generuje ogromne ilości danych, które muszą być przechowywane i zarządzane. To trudne zadanie dla tradycyjnych relacyjnych baz danych, które zostały zaprojektowane z myślą o danych strukturalnych.

Bazy danych NoSQL są idealne dla danych nieustrukturyzowanych, ale ich wdrożenie na dużą skalę może być trudne, zwłaszcza w środowiskach hybrydowych.

Dostawcy chmury oferują własne zarządzane rozwiązania, które pomagają w tym kroku. Na przykład AWS oferuje rozwiązanie o nazwie Amazon Simple Storage Service (S3) do przechowywania obiektów. Google oferuje BigQuery jako część Cloud Platform. Obie usługi zapewniają platformę o niskim opóźnieniu do przechowywania dużych ilości danych na dużą skalę.

Przykładowe narzędzia: Snowflake, Databricks, AWS, GCP

Przeczytaj naszą listę 15 najlepszych narzędzi do hurtowni danych, aby znaleźć to, które odpowiada Twoim potrzebom biznesowym

3. Transformacja danych

Transformacja danych to proces konwersji danych z jednego formatu lub struktury na inny format lub strukturę. Zwykle transformacja danych jest wykonywana przy użyciu technik ekstrakcji, transformacji i ładowania (ETL).

Dowiedz się, jak proces ETL przyspiesza ręczne operacje na danych

Transformacja danych ma kluczowe znaczenie w procesie integracji danych, ponieważ przygotowuje i normalizuje dane do dalszej analizy, raportowania i wizualizacji. Transformację danych można przeprowadzić na dowolnym typie zestawu danych, niezależnie od jego oryginalnego formatu lub przeznaczenia.

Przykładowe narzędzia: Impprovado DataPrep, Dbt,MCDM, Matillon, Alteryx, RestApp

Wykres procesu transformacji danych
Proces transformacji danych z RestApp

4. Analiza danych

Warstwa analityczna odpowiada za agregację, analizę i prezentację danych użytkownikom. Twoja warstwa analityczna powinna odpowiadać na pytania takie jak:

  • Jakie są kluczowe wskaźniki dla mojej firmy?
  • Jak te dane zmieniają się w czasie?
  • Jak jedna metryka wpływa na inną?

W większości przypadków oznacza to, że Twoje dane zostaną przekształcone w wykresy, wykresy, tabele i inne reprezentacje wizualne, które możesz natychmiast zrozumieć.

Niektóre najnowsze platformy do analizy danych mają możliwości, które umożliwiają osobom nietechnicznym badanie danych bez znajomości języka SQL.

Przykładowe narzędzia: Looker, Tableau, Power BI

„Bez analizy big data firmy są ślepe i głuche, wędrując po sieci jak jelenie na autostradzie”.

Geoffrey Moore, autor i konsultant.

5. Zarządzanie danymi

Niezbędne jest zapewnienie jasnej własności i procesu na każdym etapie potoku danych. Obejmuje to ustalanie standardów dotyczących typów gromadzonych danych oraz sposobu ich przechowywania i uzyskiwania do nich dostępu, a także procesów zapewniających przestrzeganie i egzekwowanie tych standardów.

Załóżmy, że Twoim celem jest wykorzystanie danych do poprawy wydajności operacyjnej. Możesz zdecydować, że wszystkie Twoje systemy inwentaryzacji powinny używać tego samego systemu kodów kreskowych, aby uzyskać pełny obraz łańcucha dostaw bez konieczności ręcznego uzgadniania różnych kodów lub systemów.

Przykładowe narzędzia: Atlan, Microsoft Azure Data Catalog, Informatica

Wykres wpływu zarządzania danymi
Wpływ zarządzania danymi od następnej decyzji

Alternatywa odwrotnego ETL

Wiele firm zbudowało swoje stosy danych przy użyciu technologii ETL. Technologie te są przydatne do przetwarzania dużych ilości danych z wielu źródeł i przenoszenia ich do scentralizowanej hurtowni danych. Jednak takie podejście zwiększa złożoność Twojej infrastruktury i spowalnia czas dostawy.

W dzisiejszym świecie decyzje biznesowe coraz częściej podejmowane są na podstawie danych w czasie rzeczywistym, niezależnie od tego, czy dotyczą one finansów, zarządzania łańcuchem dostaw czy relacji z klientami. Nowoczesny stos danych umożliwia dostarczanie w czasie rzeczywistym wglądu w całej organizacji, zapewniając aktualność, dostępność i bezpieczeństwo danych.

W tym miejscu Reverse ETL może pomóc w zbudowaniu nowoczesnego stosu danych, który zapewnia firmie wartość w czasie rzeczywistym i eliminuje ryzyko niepowodzenia z powodu nieaktualnych informacji.

Reverse ETL to zestaw metod lub procesów, które synchronizują dane z hurtowni danych z narzędziami operacyjnymi, takimi jak CRM, CMS, produkt lub dowolne narzędzie biznesowe (Slack, Arkusz Google itp.).

Odwrócony wykres procesu ETL
Schemat procesu odwrotnego ETL od RestApp

Ideą tego procesu jest stworzenie jednego, kompleksowego źródła danych, które zapewnia spójny, zaufany widok danych korporacyjnych. Procesy odwróconego ETL są zwykle używane do rozszerzania istniejących procesów ETL i działają w określonych odstępach czasu. Poza tym Reverse ETL umożliwia analizę operacyjną.

Analityka operacyjna a analiza biznesowa

Analityka operacyjna to wykorzystanie danych, analityki predykcyjnej i narzędzi analizy biznesowej w celu uzyskania wglądu w operacje biznesowe i generowania działań w czasie rzeczywistym dzięki aktywowanym danym.

Business Intelligence (BI) jest definiowane przez Investopedię jako infrastruktura proceduralna i techniczna, która gromadzi, przechowuje i analizuje dane generowane przez działalność firmy.

Business Intelligence skupia się na analizie danych historycznych.

Pomaga zrozumieć, co się stało i dlaczego. Służy do wspomagania podejmowania decyzji biznesowych poprzez identyfikowanie wzorców i trendów poprzez porównania danych, testy porównawcze i inne techniki statystyczne.

Na przykład sensowne jest utworzenie raportu, który pokazuje liczbę zamówień złożonych w danym okresie, średnią wartość zamówienia i całkowitą liczbę zamówień.

Analityka operacyjna to pojęcie, które koncentruje się na czasie rzeczywistym i przyszłości. Koncentruje się na tym, co dzieje się teraz i prognozowaniu tego, co stanie się później, aby pomóc w jak najlepszym wykorzystaniu przyszłych szans.

Podsumowując, Analityka Operacyjna pokazuje, gdzie musimy teraz działać, a Business Intelligence pokazuje, co zostało zrobione źle i jakie są punkty do poprawy.

Analityka operacyjna nie ogranicza się już do cyfrowych gigantów, takich jak Google, Facebook i Netflix. Dzięki danym w czasie rzeczywistym każda firma, która korzysta z nowoczesnego stosu danych, podejmuje więcej decyzji opartych na danych.

Konieczna jest ewolucja organizacyjna

Kiedy firma wdraża nowoczesny stos danych, zachodzą trzy główne zmiany w sposobie zarządzania danymi:

Przejście od IT do użytkowników biznesowych

W przeszłości dział IT realizował prośby o dane od działów i analityków. Rozwój samoobsługowych narzędzi analitycznych, takich jak Tableau i Looker, umożliwił użytkownikom biznesowym bezpośredni dostęp do danych i ich analizę.

Ta zmiana ma ogromny wpływ na sposób, w jaki firmy organizują swoje zasoby wokół danych.

Od przetwarzania wsadowego do przetwarzania danych w czasie rzeczywistym

. Ponieważ potoki danych stają się bardziej uproszczone, a dane stają się bardziej dostępne w całej organizacji, czas opóźnienia między wystąpieniem zdarzenia a jego analizą musi się skrócić.

Oznacza to, że coraz więcej firm patrzy na przetwarzanie swoich danych w czasie rzeczywistym, zamiast agregować dane w dłuższych okresach czasu.

Od silosowanych baz danych do federacji własności (domeny)

Tradycyjne architektury danych opierają się na silosowych bazach danych i własności federacyjnej, co doprowadziło do rozpowszechnienia się jezior danych, zbiorczych baz danych i hurtowni danych.

Architektury te skupiały się na scentralizowanych obliczeniach i infrastrukturze pamięci masowej. W miarę dojrzałości i unowocześniania usług w chmurze powinno też nastąpić podejście do architektury stosów danych.

Dzisiejsze architektury danych muszą być w stanie obsłużyć skalę i złożoność nowoczesnych aplikacji, które są rozproszone w wielu technologiach. W tym miejscu pojawia się koncepcja siatki danych — nowej architektury, która pozwala na bezpieczny i bezpieczny dostęp do wszystkich typów danych i ich wykorzystanie przez dowolną aplikację w dowolnym miejscu.

Polegaj na swoich interesariuszach

Istnieją trzy główne typy interesariuszy, jeśli chodzi o nowoczesny stos danych.

Interesariusze wewnętrzni

Są to osoby w Twojej organizacji, które będą wykorzystywać dane w swojej codziennej pracy.

Na przykład zespół sprzedaży może być zainteresowany tym, jaki przychód przynosi każdy klient i jak go zwiększyć. A może zespół marketingowy jest zainteresowany tym, jakie rodzaje treści generują największy ruch w witrynie.

Interesariusze wewnętrzni powinni mieć wpływ na to, jakie dane zbierasz, jak je ustrukturyzujesz i jakich narzędzi używasz do ich analizy.

Interesariusze zewnętrzni

Są to osoby spoza Twojej firmy, ale nadal mają udział w Twoim sukcesie.

Na przykład, jeśli Twoja firma jest firmą zajmującą się oprogramowaniem jako usługą (SaaS), użytkownikami Twojego produktu są interesariusze zewnętrzni. Jeśli Twoja firma sprzedaje produkty online i wysyła je na cały kraj lub na cały świat, klienci i dostawcy są zewnętrznymi interesariuszami.

Ważne jest, aby zrozumieć, czego od Ciebie potrzebują, aby móc prawidłowo i skutecznie dostarczać te dane.

Interesariusze zewnętrzni

Są to osoby spoza Twojej organizacji, które również świadczą usługi Twojej firmie. Na przykład dostawcy dostarczający surowce lub konsultanci IT, którzy pomagają skonfigurować infrastrukturę technologiczną. Jeśli chcesz uniknąć ślepych much pod względem danych, musisz opanować analizę danych. Będzie to w coraz większym stopniu wymagało opracowania danych poza twoimi czterema ścianami.

Nowoczesny stos danych wzmacnia relacje między firmą a jej interesariuszami dzięki efektywniejszemu udostępnianiu danych dzięki zdefiniowanym domenom dla każdego zespołu i możliwości korzystania z nich w środowisku bez kodu.

Domeny danych wzmacniają relacje między zespołami, ponieważ wszystkie działają w tej samej domenie.

Na przykład zespół marketingowy chce wiedzieć, ile osób rejestruje się w celu uzyskania nowego produktu lub usługi i jaki przychód generuje po rejestracji. Dane generowane przez zespół produktowy są istotne dla zespołu marketingowego, ponieważ obaj pracują w podobnej przestrzeni.

Wniosek

Jak widać, podczas konfigurowania stosu danych należy wziąć pod uwagę wiele rzeczy. Biorąc pod uwagę wszystkie zaangażowane elementy, jest to duże przedsięwzięcie i może być trudno objąć ramionami wszystkie ruchome części.

Zrozumienie, dlaczego potrzebujesz stosu danych i jakie korzyści przyniesie on Twojej firmie, umożliwi Ci planowanie długoterminowe poprzez ustalenie jasnych procesów i terminów wdrożenia. Korzyści płynące z korzystania z nowoczesnego stosu danych to przezwyciężenie wszelkich wyzwań po drodze, nie tylko w zakresie poszczególnych projektów i inicjatyw, ale także w zakresie stworzenia mocnych podstaw, które pomogą Ci podejmować lepsze decyzje.