Modern Veri Yığını Nasıl Oluşturulur

Yayınlanan: 2022-05-06

Günümüzün teknoloji odaklı ekonomisinde, veri depolama her zamankinden daha karmaşık hale geldi. IDC'ye (International Data Corporation) göre, 2025'te 175 Zettabayt veri üretilecek ve bu, 2021'de üretilen miktarın (61 Zettabayt) neredeyse üç katını temsil ediyor.

Oluşturulan veri hacmi grafiği
Oluşturulan veri hacmi grafiği

2010'dan 2025'e kadar dünya çapında Statista tarafından oluşturulan, yakalanan, kopyalanan ve tüketilen veri hacmi

Şirketinizin bilgilerini doğru bir şekilde depolamak ve yönetmek istiyorsanız, mevcut birçok seçeneği ve bunların nasıl birbirine entegre edilebileceğini anlamanız gerekir.

Neyse ki bu kılavuz, verilerinizi mümkün olan en etkili şekilde toplamanıza, depolamanıza, analiz etmenize ve nihayetinde kullanmanıza olanak tanıyan modern bir veri yığını oluşturmanıza yardımcı olacaktır. Bu plan, büyüklükleri veya endüstri türleri ne olursa olsun, geliştirmenin herhangi bir aşamasında şirketler tarafından kullanılabilecek kadar esnektir.

Neden modern bir veri yığınına ihtiyacınız var?

Modern bir veri yığını, verilerin uçtan uca yaşam döngüsünü işlemek için entegre bir araç setidir. Bilgileri gerçek zamanlı olarak toplamak, işlemek ve etkinleştirmek için tasarlanmıştır. Trendleri ayrıntılı düzeyde anlamak (örneğin, bir müşterinin organizasyonu içinde) ve kalıcı olarak kesinleştirilmeden önce bunlara göre hareket etmek isteyen herhangi bir kuruluş için gereklidir.

Modern bir veri yığını oluşturmak zor değil, ancak biraz zaman ve taahhüt ve verilerinizden tam olarak neye ihtiyacınız olduğunu anlamayı gerektiriyor. Operasyonları iyileştirme ve müşterileriniz hakkında bilgi edinme konusunda ciddiyseniz, harcadığınız her dakikaya değecektir. İşin püf noktası, nereden başlayacağınızı ve nasıl ilerleyeceğinizi bilmektir.

Bu kılavuzun geri kalanı size modern bir veri yığını oluşturmak için ihtiyacınız olan tüm bilgileri verecektir. Farklı bileşenlerin birlikte nasıl çalıştığını ve modern veri yığınınızın her bir parçası için nasıl yazılım seçeceğinizi öğreneceksiniz. Okumayı bitirdiğinizde, bugün kuruluşunuzda modern bir veri yığını oluşturmaya başlamak için ihtiyacınız olan her şeye sahip olacaksınız!

“Veri açısından bakıldığında, veri ambarı cihazları gerçek bir altın madeni. Bunu dikey olarak entegre çözümlere sunmak, endüstri bulutu fikrinin merkezinde yer alıyor.”

Kül Suyu

Veri Gölleri ve Veri Ambarları: Modern Bir Bulut Veri Platformunun İki Yüzü

Modern bir veri yığınının faydaları

Neden modern bir veri yığınına yatırım yapmalısınız? İşte bazı avantajlar:

  • Verilerinizi herhangi bir hedefe dakikalar içinde kolayca çıkarın ve yükleyin.
  • Büyük miktarda yapılandırılmamış veriyi (belgeler, arama sonuçları, çeşitli metrikler vb.) özel komut dosyaları yazmaya veya geçici sorgular oluşturmaya başvurmadan analiz edin.
  • Herhangi bir iş ekibinin kendi araçlarında operasyonel, güvenilir ve güncel verilerle kendi kendine hizmet etmesine izin verin.
  • İş ekipleri için kod gerektirmeyen araçları entegre ederek yenilikleri kuruluşunuzda daha hızlı devreye alın
  • Modern veri yığınları, bir veri hattı oluşturma ve sürdürme ihtiyacını ortadan kaldırarak veri mühendisliği yükünü azaltır.

Mevcut ortamı anlayın

Herhangi bir çözüm tasarlamanın ilk adımı, neyi düzeltmeye çalıştığınızı anlamaktır. Geri çekilin ve kuruluşunuzun şu anda hangi araçları, süreçleri ve prosedürleri kullandığına bakın. Sonra kendinize sorun: Verimli mi? İyileştirme için yer var mı?

Modern veri yığını tamamen verimlilikle ilgilidir, bu nedenle mevcut sürecinizde verimsizlikler varsa (ve bana güvenin, var), bu, düzene koyabileceğiniz bir alandır.

Bazı durumlarda, ekipler arasındaki işbirliğini artırmak veya süreçlerinizi güncellemek kadar basit olabilir, ancak bazen eski yazılımları değiştirmek veya hatta ortamınıza yeni teknolojiler eklemek anlamına gelebilir.

Her ne ise, herhangi bir tasarım çalışmasında ilerlemeden önce çözmekte olduğunuz sorunları tam olarak tanımlayarak başlayın. Yolun aşağısında uygulamayı çok daha kolay hale getirecek.

İş ihtiyaçlarını ve hedeflerini belirleyin

İşletmeniz için bir veritabanı seçmeden önce, veri modelini, ne tür sorgulara ve raporlamaya ihtiyaç duyacağını ve onu kimin kullanacağını anlamanız gerekir. Bu soruların yanıtlarını almak, işletmenizin (yolda değişiklik yapmak yerine) önceden planlamaya başlamasına da yardımcı olacaktır.

Buradaki kilit soru, veri deponuzun ne kadar büyük olması gerektiğidir. Örneğin, bir OLAP (Çevrimiçi analitik işleme) senaryosunda, çok sayıda satırınız olacak, ancak her birinde çok az veri olacak - ancak bir çevrimiçi işlem işleme (OLTP) senaryosunda, büyük miktarda veri içeren çok sayıda satırınız olacak. çok daha fazla depolama alanı gerektiren her satırda. Ayrıca, daha da fazla alan gerektiren İş Zekası (BI) raporlama ihtiyaçları vardır. Bu tür durumlar için BigQuery, üç senaryoyu da gerçekten iyi bir şekilde işleyebilen mükemmel bir depolama alanıdır.

Düşünülmesi gereken başka bir şey de bulut veya şirket içi depolamayı kullanmak isteyip istemediğinizdir. Bu nedenle, şirket içi altyapıya zaten yatırım yaptıysanız Google Cloud Platform sizin için doğru olmayabilir.

Ölçeklenebilirliği ve performansı hesaplayın

Bir bulut sağlayıcısı seçerken, uygulamanızın zaman içinde beklendiği gibi ölçeklenip performans göstermeyeceğini düşünmek önemlidir.

Bir diğer önemli nokta, verilerinizin her ortamda nasıl korunacağını anlamaktır (örneğin, veri merkezleri doğal afetler, elektrik kesintileri veya ekipman arızaları yaşayabilir).

Tüm bu adımlarda olduğu gibi, araştırma yapmak ve soru sormak çok önemlidir. New Relic gibi şirketler, uygulama performansınızı ve trafiğinizi izlemenize yardımcı olabilecek araçlar sunar.

Ayrıca Netflix gibi kuruluşlar, genel bulutlarda çalışan modern uygulamalar için özel olarak tasarlanmış açık kaynaklı teknolojiler oluşturmuştur. Örneğin Netflix, büyük AWS tabanlı ortamların izlenmesine ve güvenliğinin sağlanmasına yardımcı olan bir yazılım olan Security Monkey'i geliştirdi.

Bulut sağlayıcılarını değerlendirirken bu teknolojileri araştırmaya değer; bu tür bilgiler, farklı şirketlerden mühendislerle konuşmaktan ve onların deneyimlerini anlamaktan gelir.

Modern veri yığını bileşenleri grafiği
Neptün'den modern veri yığını bileşenleri

Modern bir veri yığınının bileşenleri

Veri stratejik bir varlıktır. Bundan en iyi şekilde yararlanmak için, bir veri yığınını oluşturan çeşitli bileşenleri ve bunların birlikte nasıl çalıştığını anlamanız gerekir.

Ürününüz için kendi veri altyapınızı tasarlarken dahil edilecek bir veri yığınının temel bileşenleri şunlardır:

  1. Veri Alma
  2. Veri depolama
  3. Veri dönüşümü
  4. Veri analizi
  5. Veri yönetimi

1. Veri alımı

Veri alımı, daha fazla depolama ve analiz için verilerin bir konumdan veri ambarı veya veri gölü gibi yeni bir hedefe aktarılmasıdır.

Modern bir veri yığını oluşturmadaki ilk adımınız, veri kaynaklarınızı belirlemektir. Veri alma araçları sayesinde tüm verilerinizi dakikalar içinde içe aktarabileceksiniz.

Diyelim ki bir e-ticaret işletmesi yürütüyorsunuz, sorgular sattığınız ürünler ve çeşitleriyle sınırlı olmalıdır. Birisi satın almadığı bir ürünü sorguladığı için günde yüzlerce sorgunun veritabanınıza gelmesini istemezsiniz. Ürünlerinizi müşteri grubuna, SKU'ya veya diğer filtrelere göre sıralayın ve filtreleyin ve müşterilerin siteniz üzerinden yapılan satışlar için sipariş geçmişlerini kolayca alabilmeleri için "Mağazamı Ziyaret Et" düğmesi aracılığıyla kullanıcı dostu erişim sağlayın.

Araç örnekleri: Improvado, Fivetran, Stitch, Airflow

️En iyi 16 veri alma aracı listemiz, veri yığınınız için en iyisini seçmenize yardımcı olacaktır️

2. Veri depolama

Bulutta yerel uygulamaların ve mikro hizmetlerin yükselişiyle birlikte çoğu işletme, depolanması ve yönetilmesi gereken çok büyük miktarda veri üretir. Yapılandırılmış veriler için tasarlanmış geleneksel ilişkisel veritabanları için zorlu bir görevdir.

NoSQL veritabanları yapılandırılmamış veriler için idealdir, ancak özellikle hibrit ortamlarda büyük ölçekte dağıtılması zor olabilir.

Bulut sağlayıcıları, bu adımda yardımcı olmak için kendi yönetilen çözümlerini sunar. Örneğin AWS, nesne depolama için Amazon Simple Storage Service (S3) adlı bir çözüm sunar. Google, BigQuery'yi Cloud Platform'un bir parçası olarak sunar. Her iki hizmet de büyük hacimli verileri uygun ölçekte depolamak için düşük gecikmeli bir platform sağlar.

Araç örnekleri: Snowflake, Databricks, AWS, GCP

İş gereksinimlerinize uygun olanı bulmak için en iyi 15 veri ambarı araç listemizi okuyun

3. Veri dönüşümü

Veri dönüştürme, verileri bir formattan veya yapıdan başka bir format veya yapıya dönüştürme işlemidir. Genellikle veri dönüştürme, çıkarma, dönüştürme ve yükleme (ETL) teknikleri kullanılarak gerçekleştirilir.

ETL sürecinin manuel veri işlemlerini nasıl hızlandırdığını öğrenin

Verileri daha fazla analiz, raporlama ve görselleştirme için hazırladığı ve normalleştirdiği için veri entegrasyonu sürecinde veri dönüşümü çok önemlidir. Veri dönüştürme, orijinal biçimi veya tanımı ne olursa olsun, herhangi bir veri kümesi türü üzerinde gerçekleştirilebilir.

Araç örnekleri: Improvado DataPrep, Dbt,MCDM, Matillon, Alteryx, RestApp

Veri dönüştürme İşlem grafiği
RestApp'ten Veri Dönüşüm Süreci

4. Veri analitiği

Analitik katmanı, verileri toplamak, analiz etmek ve kullanıcılara sunmaktan sorumludur. Analitik katmanınız aşağıdaki gibi soruları yanıtlamalıdır:

  • İşim için temel metrikler nelerdir?
  • Bu metrikler zaman içinde nasıl değişir?
  • Bir metrik diğerini nasıl etkiler?

Çoğu zaman bu, verilerinizin hemen anlayabileceğiniz grafiklere, tablolara, tablolara ve diğer görsel temsillere dönüştürüleceği anlamına gelir.

Bazı yeni veri analizi platformları, teknik bilgisi olmayan kişilerin SQL bilmeden verileri incelemesine izin veren yeteneklere sahiptir.

Örnek araçlar: Looker, Tableau, Power BI

"Büyük veri analitiği olmadan şirketler, bir otoyoldaki geyikler gibi internette gezinerek kör ve sağırdır."

Geoffrey Moore, yazar ve danışman.

5. Veri yönetimi

Veri hattındaki her adım için net bir sahiplik ve süreç sağlamak çok önemlidir. Bu, toplanan veri türleri ve bunların nasıl saklandığı ve erişildiği için standartlar belirlemenin yanı sıra bu standartların takip edilmesini ve uygulanmasını sağlamak için süreçleri içerir.

Amacınızın operasyonel verimliliği artırmak için verileri kullanmak olduğunu varsayalım. Farklı kodları veya sistemleri manuel olarak uzlaştırmak zorunda kalmadan tedarik zincirinizin tam bir resmini elde edebilmek için tüm envanter sistemlerinizin aynı barkod sistemini kullanması gerektiğine karar verebilirsiniz.

Örnek araçlar: Atlan, Microsoft Azure Veri Kataloğu, Informatica

Veri yönetişimi etki grafiği
Bir sonraki karardan veri yönetişimi etkisi

Ters ETL alternatifi

Birçok işletme veri yığınlarını ETL teknolojilerini kullanarak oluşturmuştur. Bu teknolojiler, birden çok kaynaktan gelen büyük miktardaki verileri işlemek ve bunları merkezi bir veri ambarına taşımak için kullanışlıdır. Ancak bu yaklaşım, altyapınızın karmaşıklığını artırır ve teslim süresini yavaşlatır.

Günümüz dünyasında, finans, tedarik zinciri yönetimi veya müşteri ilişkilerinde olsun, iş kararları giderek artan bir şekilde gerçek zamanlı verilere dayalı olarak alınmaktadır. Modern bir veri yığını, verilerinizi güncel, erişilebilir ve güvenli tutarak tüm kuruluş genelinde gerçek zamanlı bilgiler sunmanıza olanak tanır.

İşte burada Reverse ETL, işletmeye gerçek zamanlı değer sağlayan ve güncel olmayan bilgilerden kaynaklanan arıza riskini ortadan kaldıran modern bir veri yığını oluşturmanıza yardımcı olabilir.

Ters ETL, verileri bir veri ambarından CRM, CMS, ürün veya herhangi bir iş aracı (Slack, Google Sheet, vb.) gibi operasyonel araçlara senkronize eden bir dizi yöntem veya işlemdir.

Ters ETL süreç grafiği
RestApp'ten bir Ters ETL süreç şeması

Bu sürecin arkasındaki fikir, kurumsal verilerin tutarlı ve güvenilir bir görünümünü sağlayan tek ve kapsamlı bir veri kaynağı oluşturmaktır. Ters ETL süreçleri genellikle mevcut ETL süreçlerini artırmak için kullanılır ve bunlar belirli zaman aralıklarında çalışır. Ayrıca, Ters ETL, Operasyonel Analitik sağlar.

Operasyonel Analitik ve İş Zekası

Operasyonel Analitik, iş operasyonları hakkında bilgi edinmek ve etkinleştirilmiş veriler sayesinde gerçek zamanlı eylemler oluşturmak için verilerin, tahmine dayalı analitiklerin ve iş zekası araçlarının kullanılmasıdır.

İş zekası (BI), Investopedia tarafından bir şirketin faaliyetleri tarafından üretilen verileri toplayan, depolayan ve analiz eden prosedürel ve teknik altyapı olarak tanımlanır.

İş Zekası, geçmiş verilerin analizine odaklanır.

Ne olduğunu ve nedenini anlamanıza yardımcı olur. Veri karşılaştırmaları, kıyaslamalar ve diğer istatistiksel teknikler aracılığıyla kalıpları ve eğilimleri belirleyerek iş karar verme sürecini desteklemek için kullanılır.

Örneğin, belirli bir zaman diliminde verilen siparişlerin sayısını, ortalama sipariş değerini ve toplam sipariş sayısını gösteren bir rapor oluşturmak mantıklıdır.

Operasyonel analitik, gerçek zamanlı ve geleceğe odaklanan bir kavramdır. Şimdi ne olduğuna ve gelecekte ne olacağını tahmin etmeye odaklanır, böylece gelecekteki şanslardan en iyi şekilde yararlanmaya yardımcı olabilir.

Özetle, Operasyonel Analitik şimdi nerede hareket etmemiz gerektiğini gösterirken, İş Zekası neyin yanlış yapıldığını ve iyileştirme noktalarının neler olduğunu ortaya koyuyor.

Operasyonel analitik artık Google, Facebook ve Netflix gibi dijital devlerle sınırlı değil. Gerçek zamanlı veriler sayesinde, modern bir veri yığını kullanan herhangi bir firma, daha fazla veriye dayalı kararlar alır.

Organizasyonel gelişim gerekli

Bir şirket modern bir veri yığını uyguladığında, verilerin yönetilme biçiminde üç büyük değişiklik olur:

BT'den iş kullanıcılarına geçiş

Geçmişte, BT departmanı, departmanlardan ve analistlerden gelen veri taleplerini sahaya gönderirdi. Tableau ve Looker gibi self servis analitik araçlarının geliştirilmesi, iş kullanıcılarının verilere doğrudan erişmesini ve analiz etmesini sağladı.

Bu değişimin, şirketlerin kaynaklarını veriler etrafında nasıl organize ettiği konusunda büyük etkileri var.

Toplu işlemden gerçek zamanlı veri işlemeye

. Veri ardışık düzenleri daha akıcı hale geldikçe ve kuruluş genelinde verilere daha erişilebilir hale geldikçe, bir olayın gerçekleştiği zaman ile analiz edildiği zaman arasındaki gecikme süresinin daralması gerekir.

Bu, daha fazla şirketin, verileri daha uzun süreler boyunca toplamak yerine verilerinin gerçek zamanlı işlenmesine baktığı anlamına gelir.

Silo veritabanlarından birleşik sahipliğe (Etki Alanları)

Geleneksel veri mimarileri, veri göllerinin, veri pazarlarının ve veri ambarlarının çoğalmasına yol açan silo veritabanları ve birleşik mülkiyet etrafında inşa edilmiştir.

Bu mimariler, merkezi hesaplamalara ve depolama altyapısına odaklandı. Bulut hizmetleri olgunlaştıkça ve modernleştikçe, veri yığınlarının mimarisine yönelik yaklaşım da öyle olmalıdır.

Günümüzün veri mimarileri, çeşitli teknolojiler arasında dağıtılan modern uygulamaların ölçeğini ve karmaşıklığını kaldırabilmelidir. İşte tam bu noktada veri ağı kavramı devreye giriyor - her tür veriye güvenli bir şekilde erişilmesine ve herhangi bir yerde herhangi bir uygulama tarafından tüketilmesine olanak tanıyan yeni bir mimari.

Paydaşlarınıza güvenin

Modern veri yığını söz konusu olduğunda üç ana paydaş türü vardır.

İç paydaşlar

Bunlar, kuruluşunuzda verileri günlük işlerinde kullanacak olan kişilerdir.

Örneğin, satış ekibi, her müşterinin ne kadar gelir getirdiği ve bu gelirin nasıl artırılacağıyla ilgilenebilir. Veya pazarlama ekibi, en çok web sitesi trafiğini hangi tür içeriğin yönlendirdiğiyle ilgileniyor olabilir.

Dahili paydaşlar, hangi verileri topladığınız, bu verileri nasıl yapılandırdığınız ve bunları analiz etmek için hangi araçları kullandığınız konusunda söz sahibi olmalıdır.

Dış paydaşlar

Bunlar, şirketinizin dışından kişilerdir, ancak yine de başarınızda payları vardır.

Örneğin, işiniz bir hizmet olarak yazılım (SaaS) şirketiyse, ürününüzün kullanıcıları dış paydaşlardır. İşletmeniz çevrimiçi ürünler satıyorsa ve bunları ülke çapında veya dünya çapında gönderiyorsa, müşteriler ve tedarikçiler dış paydaşlardır.

Sizden neye ihtiyaç duyduklarını anlamak önemlidir, böylece bu verileri doğru ve verimli bir şekilde iletebilirsiniz.

Üçüncü taraf paydaşlar

Bunlar, kuruluşunuz dışında da şirketinize hizmet sağlayan kişilerdir. Örneğin, hammadde tedarik eden satıcılar veya teknoloji altyapınızı kurmanıza yardımcı olan BT danışmanları. Veri açısından kör sineklerden kaçınmak istiyorsanız, veri analizinde ustalaşmanız gerekir. Bu, dört duvarınızın dışında verilerin geliştirilmesini giderek daha fazla gerektirecektir.

Modern veri yığını, her ekip için tanımlanmış etki alanları ve kodsuz bir ortamda kullanabilme yeteneği sayesinde daha verimli bir veri paylaşımı ile şirket ve paydaşları arasındaki ilişkiyi güçlendirir.

Veri alanları, hepsi aynı etki alanında faaliyet gösterdiğinden ekipler arasındaki ilişkiyi güçlendirir.

Örneğin, bir pazarlama ekibi, yeni ürün veya hizmetleri için kaç kişinin kaydolduğunu ve kaydolduktan sonra ne kadar gelir elde ettiğini bilmek ister. Ürün ekibi tarafından oluşturulan veriler, her ikisi de benzer bir alanda çalıştığı için pazarlama ekibiyle ilgilidir.

Çözüm

Gördüğünüz gibi, veri yığınınızı kurarken göz önünde bulundurmanız gereken birçok şey var. İlgili tüm farklı bileşenler göz önüne alındığında, bu büyük bir girişimdir ve kollarınızı tüm hareketli parçaların etrafından dolaşmak zor olabilir.

Neden bir veri yığınına ihtiyacınız olduğunu ve bunun işinize nasıl fayda sağlayacağını anlamak, uygulama için net süreçler ve zaman çizelgeleri belirleyerek uzun vadeli plan yapmanızı sağlar. Modern bir veri yığını kullanmanın faydaları, yalnızca bireysel projeler ve girişimler açısından değil, aynı zamanda genel olarak daha iyi kararlar almanıza yardımcı olacak güçlü bir temel oluşturma açısından da yol boyunca karşılaşabileceğiniz zorluklardan daha ağır basacaktır.