최신 데이터 스택을 만드는 방법

게시 됨: 2022-05-06

오늘날의 기술 중심 경제에서 데이터 스토리지는 그 어느 때보다 복잡해졌습니다. IDC(International Data Corporation)에 따르면 2025년에는 175제타바이트의 데이터가 생성되며, 이는 2021년에 생성된 양(61제타바이트)의 거의 3배에 해당합니다.

데이터 생성량 그래프
데이터 생성량 그래프

Statista에서 2010년부터 2025년까지 전 세계적으로 생성, 캡처, 복사 및 소비된 데이터의 양

회사 정보를 올바르게 저장하고 관리하려면 사용 가능한 많은 옵션과 함께 통합할 수 있는 방법을 이해해야 합니다.

다행히 이 가이드는 데이터를 수집, 저장, 분석하고 궁극적으로 가능한 가장 효과적인 방법으로 사용할 수 있는 최신 데이터 스택을 구축하는 데 도움이 될 것입니다. 이 청사진은 규모나 산업 유형에 관계없이 모든 개발 단계의 회사에서 사용할 수 있을 만큼 충분히 유연합니다.

최신 데이터 스택이 필요한 이유는 무엇입니까?

최신 데이터 스택은 데이터의 종단 간 수명 주기를 처리하기 위한 통합 도구 세트입니다. 실시간으로 정보를 수집, 처리 및 활성화하도록 설계되었습니다. 이는 세부적인 수준(예: 고객 조직 내)에서 추세를 이해하고 영구적으로 고정되기 전에 조치를 취하려는 조직에 필수적입니다.

최신 데이터 스택을 만드는 것은 어렵지 않지만 시간과 노력이 필요하며 데이터에서 필요한 것이 정확히 무엇인지 이해해야 합니다. 운영을 개선하고 고객에 대한 통찰력을 얻는 데 진지하다면 매 순간 노력할 가치가 있습니다. 비결은 어디에서 시작하고 앞으로 나아가야 하는지 아는 것입니다.

이 가이드의 나머지 부분에서는 최신 데이터 스택을 만드는 데 필요한 모든 정보를 제공합니다. 다양한 구성 요소가 함께 작동하는 방식과 최신 데이터 스택의 각 부분에 대해 소프트웨어를 선택하는 방법을 배우게 됩니다. 읽기를 마치면 오늘 조직에서 최신 데이터 스택 구축을 시작하는 데 필요한 모든 것을 갖게 됩니다!

“데이터 관점에서 데이터 웨어하우스 어플라이언스는 진정한 금광입니다. 수직적으로 통합된 솔루션에서 사용할 수 있도록 하는 것이 산업 클라우드 아이디어의 핵심입니다."

아시시 투수

데이터 레이크 및 데이터 웨어하우스: 최신 클라우드 데이터 플랫폼의 양면

최신 데이터 스택의 이점

최신 데이터 스택에 투자하는 이유는 무엇입니까? 다음은 몇 가지 이점입니다.

  • 몇 분 안에 데이터를 쉽게 추출하고 모든 대상으로 로드합니다.
  • 사용자 정의 스크립트를 작성하거나 임시 쿼리를 생성하지 않고도 문서, 검색 결과, 다양한 메트릭 등 많은 양의 비정형 데이터를 분석할 수 있습니다.
  • 모든 비즈니스 팀이 자체 도구에서 운영되고 신뢰할 수 있는 최신 데이터로 셀프 서비스를 수행할 수 있습니다.
  • 비즈니스 팀을 위한 코드 없는 도구를 통합하여 조직에 혁신을 더 빠르게 배포
  • 최신 데이터 스택은 데이터 파이프라인을 구축 및 유지 관리할 필요가 없으므로 데이터 엔지니어링 오버헤드를 줄입니다.

현재 환경 이해

솔루션을 설계하는 첫 번째 단계는 수정하려는 내용을 이해하는 것입니다. 뒤로 물러나 조직에서 현재 사용하고 있는 현재 도구, 프로세스 및 절차를 살펴보십시오. 그런 다음 스스로에게 물어보십시오. 효율적인가? 개선의 여지가 있습니까?

최신 데이터 스택은 모두 효율성에 관한 것이므로 현재 프로세스에 비효율성이 있는 경우(저를 믿으십시오. 있음), 그것이 능률화할 수 있는 영역입니다.

어떤 경우에는 팀 간의 협업을 늘리거나 프로세스를 업데이트하는 것처럼 간단할 수도 있지만 때로는 오래된 소프트웨어를 교체하거나 환경에 새로운 기술을 도입하는 것을 의미할 수도 있습니다.

그것이 무엇이든 디자인 작업을 진행하기 전에 해결하려는 정확한 문제를 정의하는 것으로 시작하십시오. 향후 구현이 훨씬 쉬워질 것입니다.

비즈니스 요구 및 목표 식별

비즈니스를 위한 데이터베이스를 선택하기 전에 데이터베이스의 데이터 모델, 어떤 종류의 쿼리 및 보고가 필요하며 누가 사용할 것인지 이해해야 합니다. 이러한 질문에 대한 답을 얻으면 비즈니스가 향후 변경을 수행하는 대신 사전 계획을 시작하는 데 도움이 됩니다.

여기서 한 가지 중요한 질문은 데이터 저장소가 얼마나 커야 하는지입니다. 예를 들어 OLAP(온라인 분석 처리) 시나리오에서는 행은 많지만 각 행의 데이터는 거의 없지만 OLTP(온라인 트랜잭션 처리) 시나리오에서는 엄청난 양의 데이터가 포함된 행이 많이 있습니다. 더 많은 저장 공간이 필요한 각 행에서. 그리고 더 많은 공간이 필요한 BI(비즈니스 인텔리전스) 보고 요구 사항이 있습니다. 이러한 경우 BigQuery는 세 가지 시나리오를 모두 잘 처리할 수 있는 완벽한 스토리지입니다.

고려해야 할 또 다른 사항은 클라우드 또는 온프레미스 스토리지를 사용할지 여부입니다. 따라서 이미 온프레미스 인프라에 투자했다면 Google Cloud Platform이 적합하지 않을 수 있습니다.

확장성 및 성능 계산

클라우드 공급자를 선택할 때 애플리케이션이 시간이 지남에 따라 예상대로 확장되고 수행되는지 여부를 고려하는 것이 중요합니다.

또 다른 중요한 것은 각 환경에서 데이터가 보호되는 방식을 이해하는 것입니다(예: 데이터 센터에서 자연 재해, 정전 또는 장비 오류가 발생할 수 있음).

이 모든 단계와 마찬가지로 조사를 하고 질문을 하는 것이 필수적입니다. New Relic과 같은 회사는 애플리케이션 성능 및 트래픽을 모니터링하는 데 도움이 되는 도구를 제공합니다.

또한 Netflix와 같은 조직에서는 퍼블릭 클라우드에서 실행되는 최신 애플리케이션을 위해 특별히 설계된 오픈 소스 기술을 만들었습니다. 예를 들어 Netflix는 대규모 AWS 기반 환경을 모니터링하고 보호하는 데 도움이 되는 소프트웨어인 Security Monkey를 개발했습니다.

클라우드 제공업체를 평가할 때 이러한 기술을 자세히 알아볼 가치가 있습니다. 이러한 종류의 지식은 다양한 회사의 엔지니어와 이야기하고 경험을 이해하는 데서 나옵니다.

최신 데이터 스택 구성 요소 그래프
Neptune 의 최신 데이터 스택 구성 요소

최신 데이터 스택의 구성 요소

데이터는 전략적 자산입니다. 이를 최대한 활용하려면 데이터 스택을 구성하는 다양한 구성 요소와 함께 작동하는 방식을 이해해야 합니다.

제품에 대한 자체 데이터 인프라를 설계할 때 포함해야 하는 데이터 스택의 주요 구성 요소는 다음과 같습니다.

  1. 데이터 수집
  2. 데이터 저장고
  3. 데이터 변환
  4. 데이터 분석
  5. 데이터 거버넌스

1. 데이터 수집

데이터 수집은 추가 저장 및 분석을 위해 한 위치에서 데이터 웨어하우스 또는 데이터 레이크와 같은 새로운 대상으로 데이터를 가져오는 것입니다.

최신 데이터 스택을 만드는 첫 번째 단계는 데이터 소스를 식별하는 것입니다. 데이터 수집 도구 덕분에 몇 분 안에 모든 데이터를 가져올 수 있습니다.

전자 상거래 비즈니스를 운영하고 있다고 가정해 보겠습니다. 문의는 판매하는 제품과 그 변형으로 제한되어야 합니다. 누군가가 구매하지도 않은 항목을 쿼리했기 때문에 하루에 수백 개의 쿼리가 데이터베이스에 충돌하는 것을 원하지 않습니다. 고객 그룹, SKU 또는 기타 필터별로 제품의 순위를 지정하고 필터링하고 "내 매장 방문" 버튼을 통해 사용자 친화적인 액세스를 제공하여 고객이 사이트를 통해 이루어진 판매에 대한 주문 내역을 쉽게 검색할 수 있도록 합니다.

도구의 예: Improvado, Fivetran, Stitch, Airflow

️상위 16가지 데이터 수집 도구 목록은 데이터 스택에 가장 적합한 도구를 선택하는 데 도움이 됩니다.

2. 데이터 저장

클라우드 네이티브 애플리케이션과 마이크로서비스의 등장으로 대부분의 기업은 저장 및 관리해야 하는 엄청난 양의 데이터를 생성합니다. 구조화된 데이터용으로 설계된 기존의 관계형 데이터베이스에서는 어려운 작업입니다.

NoSQL 데이터베이스는 비정형 데이터에 이상적이지만 특히 하이브리드 환경에서는 대규모로 배포하기 어려울 수 있습니다.

클라우드 공급자는 이 단계를 지원하기 위해 자체 관리형 솔루션을 제공합니다. 예를 들어 AWS는 객체 스토리지를 위한 Amazon Simple Storage Service(S3)라는 솔루션을 제공합니다. Google은 Cloud Platform의 일부로 BigQuery를 제공합니다. 두 서비스 모두 대규모 데이터를 저장하기 위한 저지연 플랫폼을 제공합니다.

도구의 예: Snowflake, Databricks, AWS, GCP

15가지 상위 데이터 웨어하우징 도구 목록을 읽고 비즈니스 요구 사항에 맞는 도구를 찾으십시오.

3. 데이터 변환

데이터 변환은 한 형식이나 구조의 데이터를 다른 형식이나 구조로 변환하는 프로세스입니다. 일반적으로 데이터 변환은 ETL(추출, 변환 및 로드) 기술을 사용하여 수행됩니다.

ETL 프로세스가 수동 데이터 작업을 가속화하는 방법 알아보기

데이터 변환은 추가 분석, 보고 및 시각화를 위해 데이터를 준비하고 정규화하기 때문에 데이터 통합 ​​프로세스에서 매우 중요합니다. 데이터 변환은 원래 형식이나 지정에 관계없이 모든 유형의 데이터 세트에서 수행할 수 있습니다.

도구의 예: Improvado DataPrep, Dbt, MCDM, Matillon, Alteryx, RestApp

데이터 변환 프로세스 그래프
RestApp의 데이터 변환 프로세스

4. 데이터 분석

분석 계층은 데이터를 집계, 분석 및 사용자에게 제공하는 역할을 합니다. 분석 계층은 다음과 같은 질문에 답해야 합니다.

  • 내 비즈니스의 주요 지표는 무엇입니까?
  • 이러한 측정항목은 시간이 지남에 따라 어떻게 변경됩니까?
  • 한 측정항목이 다른 측정항목에 어떤 영향을 미칩니까?

대부분의 경우 데이터가 즉시 이해할 수 있는 그래프, 차트, 표 및 기타 시각적 표현으로 변환됩니다.

최근의 일부 데이터 분석 플랫폼에는 비기술자도 SQL을 몰라도 데이터를 연구할 수 있는 기능이 있습니다.

예시 도구: Looker, Tableau, Power BI

"빅 데이터 분석이 없으면 회사는 맹인과 귀머거리가 되어 고속도로의 사슴처럼 웹을 떠돌아다닙니다."

저자이자 컨설턴트인 제프리 무어(Geoffrey Moore).

5. 데이터 거버넌스

데이터 파이프라인의 모든 단계에 대해 명확한 소유권과 프로세스를 보장하는 것이 중요합니다. 여기에는 수집되는 데이터 유형, 저장 및 액세스 방법에 대한 표준 설정과 이러한 표준을 준수하고 시행하는지 확인하는 프로세스가 포함됩니다.

데이터를 사용하여 운영 효율성을 높이는 것이 목표라고 가정해 보겠습니다. 다른 코드나 시스템을 수동으로 조정할 필요 없이 공급망에 대한 완전한 그림을 얻을 수 있도록 모든 재고 시스템에서 동일한 바코드 시스템을 사용해야 한다고 결정할 수 있습니다.

도구 예: Atlan, Microsoft Azure Data Catalog, Informatica

데이터 거버넌스 영향 그래프
다음 결정으로 인한 데이터 거버넌스 영향

역 ETL 대안

많은 기업이 ETL 기술을 사용하여 데이터 스택을 구축했습니다. 이러한 기술은 여러 소스의 대량 데이터를 처리하고 중앙 집중식 데이터 웨어하우스로 이동하는 데 유용합니다. 그러나 이 접근 방식은 인프라의 복잡성을 증가시키고 배달 시간을 늦춥니다.

오늘날의 세계에서는 재무, 공급망 관리 또는 고객 관계에 관계없이 실시간 데이터를 기반으로 비즈니스 의사 결정이 점점 더 많이 이루어지고 있습니다. 최신 데이터 스택을 사용하면 데이터를 최신 상태로 유지하고 액세스 가능하며 안전하게 유지하여 조직 전체에 실시간 통찰력을 제공할 수 있습니다.

여기서 Reverse ETL은 비즈니스에 실시간 가치를 제공하고 오래된 정보로 인한 실패 위험을 제거하는 최신 데이터 스택을 구축하는 데 도움이 될 수 있습니다.

Reverse ETL은 데이터 웨어하우스의 데이터를 CRM, CMS, 제품 또는 모든 비즈니스 도구(Slack, Google Sheet 등)와 같은 운영 도구와 동기화하는 일련의 방법 또는 프로세스입니다.

역 ETL 프로세스 그래프
RestApp의 역 ETL 프로세스 체계

이 프로세스의 이면에 있는 아이디어는 기업 데이터에 대한 응집력 있고 신뢰할 수 있는 보기를 제공하는 포괄적인 단일 데이터 원본을 만드는 것입니다. 역 ETL 프로세스는 일반적으로 기존 ETL 프로세스를 보강하는 데 사용되며 정의된 시간 간격으로 실행됩니다. 게다가, Reverse ETL은 Operational Analytics를 가능하게 합니다.

운영 분석과 비즈니스 인텔리전스

Operational Analytics는 데이터, 예측 분석 및 비즈니스 인텔리전스 도구를 사용하여 비즈니스 운영에 대한 통찰력을 얻고 활성화된 데이터 덕분에 실시간 조치를 생성하는 것입니다.

비즈니스 인텔리전스(BI)는 Investopedia에서 회사 활동으로 생성된 데이터를 수집, 저장 및 분석하는 절차 및 기술 인프라로 정의됩니다.

비즈니스 인텔리전스는 과거 데이터 분석에 중점을 둡니다.

무슨 일이 일어나고 왜 일어났는지 이해하는 데 도움이 됩니다. 데이터 비교, 벤치마크 및 기타 통계 기법을 통해 패턴과 추세를 식별하여 비즈니스 의사 결정을 지원하는 데 사용됩니다.

예를 들어 특정 기간에 이루어진 주문 수, 평균 주문 금액 및 총 주문 수를 표시하는 보고서를 만드는 것이 좋습니다.

운영 분석은 실시간과 미래에 초점을 맞춘 개념입니다. 현재 일어나고 있는 일에 초점을 맞추고 다음에 일어날 일을 예측하여 미래의 기회를 최대한 활용하는 데 도움을 줄 수 있습니다.

요약하자면, Operational Analytics는 지금 우리가 조치를 취해야 할 부분을 보여주고, Business Intelligence는 무엇이 잘못되었고 개선해야 할 점은 무엇인지 보여줍니다.

운영 분석은 더 이상 Google, Facebook, Netflix와 같은 거대 디지털 기업에 국한되지 않습니다. 실시간 데이터 덕분에 최신 데이터 스택을 사용하는 모든 회사는 더 많은 데이터 기반 의사 결정을 내립니다.

조직의 진화가 필요하다

회사에서 최신 데이터 스택을 구현할 때 데이터 관리 방식에 세 가지 주요 변화가 있습니다.

IT에서 비즈니스 사용자로의 전환

과거에는 IT 부서에서 부서와 분석가의 데이터 요청을 처리했습니다. Tableau 및 Looker와 같은 셀프 서비스 분석 도구의 개발을 통해 비즈니스 사용자는 데이터에 직접 액세스하고 분석할 수 있습니다.

이러한 변화는 기업이 데이터를 중심으로 리소스를 구성하는 방법에 막대한 영향을 미칩니다.

일괄 처리에서 실시간 데이터 처리까지

. 데이터 파이프라인이 더욱 간소화되고 조직 전체에서 데이터에 더 쉽게 액세스할 수 있게 됨에 따라 이벤트가 발생한 시점과 분석 시점 사이의 지연 시간을 줄여야 합니다.

이는 더 많은 기업이 장기간에 걸쳐 데이터를 집계하는 것보다 데이터의 실시간 처리를 고려하고 있음을 의미합니다.

사일로 데이터베이스에서 연합 소유권(도메인)으로

기존 데이터 아키텍처는 사일로화된 데이터베이스와 연합 소유권을 중심으로 구축되어 데이터 레이크, 데이터 마트 및 데이터 웨어하우스가 확산되었습니다.

이러한 아키텍처는 중앙 집중식 계산 및 스토리지 인프라에 중점을 둡니다. 클라우드 서비스가 성숙하고 현대화됨에 따라 데이터 스택 설계에 대한 접근 방식도 발전해야 합니다.

오늘날의 데이터 아키텍처는 다양한 기술에 분산되어 있는 최신 애플리케이션의 규모와 복잡성을 처리할 수 있어야 합니다. 여기에서 데이터 메시의 개념이 등장합니다. 즉, 모든 유형의 데이터에 액세스할 수 있도록 하는 새로운 아키텍처로 쉽게 관리되고 어디서나 모든 애플리케이션에서 사용할 수 있습니다.

이해 관계자에게 의존

최신 데이터 스택과 관련하여 세 가지 주요 유형의 이해 관계자가 있습니다.

내부 이해관계자

이들은 일상 업무에서 데이터를 사용할 조직 내 사람들입니다.

예를 들어, 영업 팀은 각 고객이 가져오는 수익과 그 수익을 늘리는 방법에 관심이 있을 수 있습니다. 또는 마케팅 팀이 가장 많은 웹사이트 트래픽을 유도하는 콘텐츠 유형에 관심이 있을 수 있습니다.

내부 이해 관계자는 수집한 데이터, 해당 데이터를 구조화하는 방법 및 분석에 사용하는 도구에 대해 발언권을 가져야 합니다.

외부 이해관계자

이들은 회사 외부의 사람들이지만 여전히 귀하의 성공에 이해 관계가 있습니다.

예를 들어 비즈니스가 SaaS(Software as a Service) 회사인 경우 제품 사용자는 외부 이해 관계자입니다. 귀하의 비즈니스가 제품을 온라인으로 판매하여 전국 또는 전 세계로 배송하는 경우 고객과 공급업체는 외부 이해 관계자입니다.

해당 데이터를 적절하고 효율적으로 전달할 수 있도록 고객에게 필요한 것이 무엇인지 이해하는 것이 중요합니다.

제3자 이해관계자

이들은 회사에도 서비스를 제공하는 조직 외부의 사람들입니다. 예를 들어, 원자재를 공급하는 공급업체나 기술 인프라를 설정하는 데 도움이 되는 IT 컨설턴트가 있습니다. 데이터의 맹점을 피하려면 데이터 분석을 마스터해야 합니다. 이를 위해서는 4개의 벽 외부에서 데이터를 개발해야 하는 경우가 점점 더 많아질 것입니다.

최신 데이터 스택은 각 팀에 정의된 도메인과 코드 없는 환경에서 사용할 수 있는 기능 덕분에 보다 효율적인 데이터 공유를 통해 회사와 이해 관계자 간의 관계를 강화합니다.

데이터 도메인은 팀이 모두 동일한 도메인에서 작동하기 때문에 팀 간의 관계를 강화합니다.

예를 들어, 마케팅 팀은 얼마나 많은 사람들이 새로운 제품이나 서비스에 가입하고 가입 후 얼마나 많은 수익을 창출하는지 알고 싶어합니다. 제품 팀에서 생성한 데이터는 둘 다 비슷한 공간에서 작업하기 때문에 마케팅 팀과 관련이 있습니다.

결론

보시다시피 데이터 스택을 설정할 때 고려해야 할 사항이 많이 있습니다. 관련된 다양한 구성 요소를 감안할 때 이것은 큰 작업이며 모든 움직이는 부품을 팔로 감싸는 것이 어려울 수 있습니다.

데이터 스택이 필요한 이유와 이것이 비즈니스에 어떤 이점이 있는지 이해하면 구현을 위한 명확한 프로세스와 일정을 설정하여 장기적으로 계획할 수 있습니다. 최신 데이터 스택을 사용할 때의 이점은 개별 프로젝트 및 이니셔티브 측면에서뿐만 아니라 전반적으로 더 나은 결정을 내리는 데 도움이 되는 강력한 기반을 구축한다는 측면에서 진행되는 모든 문제를 능가한다는 것입니다.