Cara Membuat Tumpukan Data Modern

Diterbitkan: 2022-05-06

Dalam ekonomi yang didorong oleh teknologi saat ini, penyimpanan data menjadi lebih kompleks dari sebelumnya. Menurut IDC (International Data Corporation), 175 Zettabytes data akan dihasilkan pada tahun 2025, mewakili hampir tiga kali lipat jumlah yang dihasilkan pada tahun 2021 (61 Zettabytes).

Volume data yang dibuat grafik
Volume data yang dibuat grafik

Volume data yang dibuat, diambil, disalin, dan dikonsumsi di seluruh dunia dari 2010 hingga 2025 dari Statista

Jika Anda ingin menyimpan dan mengelola informasi perusahaan Anda dengan benar, Anda perlu memahami banyak pilihan yang tersedia dan bagaimana mereka dapat diintegrasikan bersama.

Untungnya, panduan ini akan membantu Anda membangun tumpukan data modern yang memungkinkan Anda mengumpulkan, menyimpan, menganalisis, dan pada akhirnya memanfaatkan data Anda dengan cara seefektif mungkin. Cetak biru ini cukup fleksibel untuk digunakan oleh perusahaan pada setiap tahap perkembangan, terlepas dari ukuran atau jenis industrinya.

Mengapa Anda membutuhkan tumpukan data modern?

Tumpukan data modern adalah seperangkat alat terintegrasi untuk menangani siklus hidup data ujung ke ujung. Ini dirancang untuk mengumpulkan, memproses, dan mengaktifkan informasi secara real-time. Sangat penting bagi organisasi mana pun yang ingin memahami tren di tingkat granular (misalnya, dalam organisasi klien) dan menindaklanjutinya sebelum tren tersebut ditetapkan secara permanen.

Membuat tumpukan data modern tidak sulit, tetapi membutuhkan waktu dan komitmen serta pemahaman tentang apa yang Anda butuhkan dari data Anda. Jika Anda serius ingin meningkatkan operasi dan mendapatkan wawasan tentang pelanggan Anda, usaha Anda akan sepadan dengan setiap menitnya. Triknya adalah mengetahui dari mana harus memulai dan bagaimana melangkah maju.

Sisa dari panduan ini akan memberi Anda semua informasi yang Anda butuhkan untuk membuat tumpukan data modern. Anda akan mempelajari cara kerja komponen yang berbeda, dan cara memilih perangkat lunak untuk setiap bagian tumpukan data modern Anda. Setelah Anda selesai membaca, Anda akan memiliki semua yang Anda butuhkan untuk mulai membangun tumpukan data modern di organisasi Anda hari ini!

“Dari perspektif data, peralatan gudang data adalah tambang emas sejati. Membuatnya tersedia untuk solusi yang terintegrasi secara vertikal adalah inti dari ide cloud industri.”

Ashish Jadi

Data Lakes Dan Data Warehouse: Dua Sisi Platform Data Cloud Modern

Manfaat tumpukan data modern

Mengapa berinvestasi dalam tumpukan data modern? Berikut beberapa manfaatnya:

  • Ekstrak dan muat data Anda dengan mudah dalam hitungan menit ke tujuan mana pun.
  • Analisis sejumlah besar data tidak terstruktur – dokumen, hasil pencarian, berbagai metrik, dll. – tanpa harus menulis skrip khusus atau membuat kueri ad hoc.
  • Biarkan tim bisnis mana pun melayani sendiri dengan data operasional, tepercaya, dan terbaru di alat mereka sendiri.
  • Terapkan inovasi di organisasi Anda lebih cepat dengan mengintegrasikan alat tanpa kode untuk tim bisnis
  • Tumpukan data modern mengurangi overhead rekayasa data dengan menghilangkan kebutuhan untuk membangun dan memelihara saluran data.

Pahami lingkungan saat ini

Langkah pertama untuk merancang solusi apa pun adalah memahami apa yang coba Anda perbaiki. Mundur dan lihat alat, proses, dan prosedur apa yang digunakan organisasi Anda sekarang. Kemudian tanyakan pada diri Anda: Apakah mereka efisien? Apakah ada ruang untuk perbaikan?

Tumpukan data modern adalah tentang efisiensi, jadi jika ada inefisiensi dalam proses Anda saat ini (dan percayalah, ada), itu adalah area di mana Anda dapat merampingkan.

Dalam beberapa kasus, mungkin sesederhana meningkatkan kolaborasi antar tim atau memperbarui proses Anda, tetapi terkadang itu bisa berarti mengganti perangkat lunak yang sudah ketinggalan zaman atau bahkan memperkenalkan teknologi baru ke lingkungan Anda.

Apa pun itu, mulailah dengan mendefinisikan masalah yang tepat yang Anda selesaikan sebelum melanjutkan dengan pekerjaan desain apa pun. Ini akan membuat implementasi jauh lebih mudah di jalan.

Identifikasi kebutuhan dan tujuan bisnis

Sebelum memilih database untuk bisnis Anda, Anda perlu memahami model datanya, jenis kueri dan pelaporan apa yang diperlukan, dan siapa yang akan menggunakannya. Mendapatkan jawaban atas pertanyaan-pertanyaan ini juga akan membantu bisnis Anda memulai perencanaan di awal (alih-alih membuat perubahan di awal).

Satu pertanyaan kunci di sini adalah seberapa besar penyimpanan data Anda. Misalnya, dalam skenario OLAP (Pemrosesan analitik online), Anda akan memiliki banyak baris tetapi sedikit data di setiap baris - tetapi dalam skenario pemrosesan transaksi online (OLTP), Anda akan memiliki banyak baris dengan data dalam jumlah besar di setiap baris membutuhkan lebih banyak ruang penyimpanan. Dan kemudian, ada kebutuhan pelaporan Business Intelligence (BI) yang membutuhkan lebih banyak ruang. Untuk kasus seperti itu, BigQuery adalah penyimpanan sempurna yang dapat menangani ketiga skenario dengan sangat baik.

Hal lain yang perlu dipikirkan adalah apakah Anda ingin menggunakan cloud atau penyimpanan di tempat. Oleh karena itu, jika Anda telah berinvestasi dalam infrastruktur lokal, Google Cloud Platform mungkin tidak tepat untuk Anda.

Hitung skalabilitas dan kinerja

Saat memilih penyedia cloud, penting untuk mempertimbangkan apakah aplikasi Anda akan diskalakan dan berkinerja seperti yang diharapkan dari waktu ke waktu.

Hal penting lainnya adalah memahami bagaimana data Anda akan dilindungi di setiap lingkungan (misalnya, pusat data dapat mengalami bencana alam, pemadaman listrik, atau kegagalan peralatan).

Seperti semua langkah ini, melakukan penelitian dan mengajukan pertanyaan sangat penting. Perusahaan seperti New Relic menawarkan alat yang dapat membantu Anda memantau kinerja dan lalu lintas aplikasi Anda.

Selain itu, organisasi seperti Netflix telah menciptakan teknologi sumber terbuka yang dirancang khusus untuk aplikasi modern yang berjalan di cloud publik. Misalnya, Netflix mengembangkan Security Monkey, perangkat lunak yang membantu memantau dan mengamankan lingkungan besar berbasis AWS.

Ada baiknya menggali teknologi ini saat mengevaluasi penyedia cloud—pengetahuan semacam ini berasal dari berbicara dengan para insinyur dari berbagai perusahaan dan memahami pengalaman mereka.

Grafik komponen tumpukan data modern
Komponen tumpukan data modern dari Neptunus

Komponen tumpukan data modern

Data adalah aset strategis. Untuk memaksimalkannya, Anda perlu memahami berbagai komponen yang menyusun tumpukan data dan cara mereka bekerja bersama.

Berikut adalah komponen utama tumpukan data yang harus disertakan saat merancang infrastruktur data Anda sendiri untuk produk Anda:

  1. Penyerapan Data
  2. Penyimpanan data
  3. Transformasi data
  4. Analisis Data
  5. Tata Kelola Data

1. Penyerapan data

Penyerapan data adalah mengimpor data dari satu lokasi ke tujuan baru, seperti gudang data atau danau data, untuk penyimpanan dan analisis lebih lanjut.

Langkah pertama Anda dalam membuat tumpukan data modern adalah mengidentifikasi sumber data Anda. Berkat alat penyerapan data, Anda dapat mengimpor semua data Anda dalam hitungan menit.

Katakanlah Anda menjalankan bisnis e-commerce, pertanyaan harus dibatasi pada produk yang Anda jual dan variasinya. Anda tidak ingin ratusan kueri per hari mengenai database Anda karena seseorang menanyakan item yang bahkan tidak ia beli. Beri peringkat dan filter produk Anda menurut grup pelanggan, SKU, atau filter lainnya dan berikan akses yang mudah digunakan melalui tombol "Kunjungi Toko Saya" sehingga pelanggan dapat dengan mudah mengambil riwayat pesanan mereka untuk penjualan yang dilakukan melalui situs Anda.

Contoh alat: Improvado, Fivetran, Stitch, Airflow

️Daftar 16 alat penyerapan data teratas kami akan membantu Anda memilih yang terbaik untuk tumpukan data Anda️

2. Penyimpanan data

Dengan munculnya aplikasi dan layanan mikro cloud-native, sebagian besar bisnis menghasilkan sejumlah besar data yang perlu disimpan dan dikelola. Ini adalah tugas yang menantang untuk database relasional tradisional, yang dirancang untuk data terstruktur.

Basis data NoSQL ideal untuk data tidak terstruktur, tetapi mungkin sulit untuk diterapkan dalam skala besar, terutama di lingkungan hibrid.

Penyedia cloud menawarkan solusi terkelola mereka sendiri untuk membantu langkah ini. Misalnya, AWS menawarkan solusi yang disebut Amazon Simple Storage Service (S3) untuk penyimpanan objek. Google menawarkan BigQuery sebagai bagian dari Cloud Platform. Kedua layanan menyediakan platform latensi rendah untuk menyimpan data dalam jumlah besar dalam skala besar.

Contoh alat: Kepingan Salju, Databricks, AWS, GCP

Baca daftar 15 alat pergudangan data teratas kami untuk menemukan alat yang sesuai dengan kebutuhan bisnis Anda

3. Transformasi data

Transformasi data adalah proses mengubah data dari satu format atau struktur ke format atau struktur lain. Biasanya, transformasi data dilakukan dengan menggunakan teknik extract, transform and load (ETL).

Pelajari bagaimana proses ETL mempercepat operasi data manual

Transformasi data sangat penting dalam proses integrasi data karena mempersiapkan dan menormalkan data untuk analisis, pelaporan, dan visualisasi lebih lanjut. Transformasi data dapat dilakukan pada semua jenis kumpulan data, terlepas dari format atau sebutan aslinya.

Contoh alat: Improvado DataPrep, Dbt, MCDM, Matillon, Alteryx, RestApp

Grafik proses transformasi data
Proses transformasi data dari RestApp

4. Analisis data

Lapisan analitik bertanggung jawab untuk menggabungkan, menganalisis, dan menyajikan data kepada pengguna. Lapisan analitik Anda harus menjawab pertanyaan seperti:

  • Apa metrik utama untuk bisnis saya?
  • Bagaimana metrik tersebut berubah dari waktu ke waktu?
  • Bagaimana pengaruh satu metrik terhadap metrik lainnya?

Sebagian besar waktu, ini berarti data Anda akan diubah menjadi grafik, bagan, tabel, dan representasi visual lainnya yang dapat segera Anda pahami.

Beberapa platform analisis data terbaru memiliki kemampuan yang memungkinkan orang non-teknis untuk mempelajari data tanpa mengetahui SQL.

Contoh alat: Looker, Tableau, Power BI

“Tanpa analitik data besar, perusahaan buta dan tuli, berkeliaran di web seperti rusa di jalan bebas hambatan.”

Geoffrey Moore, penulis, dan konsultan.

5. Tata kelola data

Sangat penting untuk memastikan kepemilikan dan proses yang jelas untuk setiap langkah dalam jalur data. Ini termasuk menetapkan standar untuk jenis data yang dikumpulkan dan bagaimana mereka disimpan dan diakses, bersama dengan proses untuk memastikan bahwa standar ini diikuti dan ditegakkan.

Misalkan tujuan Anda adalah menggunakan data untuk meningkatkan efisiensi operasional. Anda mungkin memutuskan bahwa semua sistem inventaris Anda harus menggunakan sistem kode batang yang sama sehingga Anda bisa mendapatkan gambaran lengkap tentang rantai pasokan Anda tanpa harus merekonsiliasi kode atau sistem yang berbeda secara manual.

Contoh alat: Atlan, Katalog Data Microsoft Azure, Informatica

Grafik dampak tata kelola data
Dampak tata kelola data dari keputusan selanjutnya

Alternatif ETL terbalik

Banyak bisnis telah membangun tumpukan data mereka menggunakan teknologi ETL. Teknologi ini berguna untuk memproses data dalam jumlah besar dari berbagai sumber dan memindahkannya ke gudang data terpusat. Namun, pendekatan ini meningkatkan kompleksitas infrastruktur Anda dan memperlambat waktu pengiriman.

Di dunia sekarang ini, keputusan bisnis semakin banyak dibuat berdasarkan data waktu nyata, baik itu di bidang keuangan, manajemen rantai pasokan, atau hubungan pelanggan. Tumpukan data modern memungkinkan Anda memberikan wawasan waktu nyata di seluruh organisasi dengan menjaga data Anda tetap segar, mudah diakses, dan aman.

Di sinilah Reverse ETL dapat membantu Anda membangun tumpukan data modern yang memberikan nilai waktu nyata ke bisnis dan menghilangkan risiko kegagalan karena informasi yang ketinggalan zaman.

Reverse ETL adalah serangkaian metode atau proses yang menyinkronkan data dari gudang data ke alat operasional seperti CRM, CMS, produk, atau alat bisnis apa pun (Slack, Google Sheet, dll.).

Grafik proses ETL terbalik
Skema proses Reverse ETL dari RestApp

Ide di balik proses ini adalah untuk membuat satu sumber data komprehensif yang menyediakan tampilan data perusahaan yang kohesif dan tepercaya. Proses ETL terbalik umumnya digunakan untuk menambah proses ETL yang ada, dan mereka berjalan pada interval waktu yang ditentukan. Selain itu, Reverse ETL memungkinkan Analisis Operasional.

Analisis Operasional vs. Intelijen Bisnis

Analisis Operasional adalah penggunaan data, analisis prediktif, dan alat intelijen bisnis untuk mendapatkan wawasan tentang operasi bisnis dan untuk menghasilkan tindakan waktu nyata berkat data yang diaktifkan.

Business Intelligence (BI) didefinisikan oleh Investopedia sebagai infrastruktur prosedural dan teknis yang mengumpulkan, menyimpan, dan menganalisis data yang dihasilkan oleh aktivitas perusahaan.

Business Intelligence berfokus pada analisis data historis.

Ini membantu Anda memahami apa yang terjadi dan mengapa. Ini digunakan untuk mendukung pengambilan keputusan bisnis dengan mengidentifikasi pola dan tren melalui perbandingan data, tolok ukur, dan teknik statistik lainnya.

Misalnya, masuk akal untuk membuat laporan yang menunjukkan jumlah pesanan yang dilakukan dalam jangka waktu tertentu, nilai pesanan rata-rata, dan jumlah total pesanan.

Analisis operasional adalah gagasan yang berfokus pada waktu nyata dan masa depan. Ini berfokus pada apa yang terjadi sekarang dan meramalkan apa yang akan terjadi selanjutnya sehingga dapat membantu dalam memanfaatkan peluang di masa depan.

Singkatnya, Analisis Operasional menunjukkan di mana kita perlu bertindak sekarang, sementara Intelijen Bisnis mengungkapkan apa yang telah dilakukan salah dan apa poin untuk perbaikan.

Analisis operasional tidak lagi terbatas pada raksasa digital seperti Google, Facebook, dan Netflix. Berkat data waktu nyata, setiap perusahaan yang menggunakan tumpukan data modern membuat lebih banyak keputusan berdasarkan data.

Evolusi organisasi diperlukan

Saat perusahaan menerapkan tumpukan data modern, ada tiga perubahan besar dalam cara pengelolaan data:

Pergeseran dari Dari TI ke pengguna bisnis

Di masa lalu, departemen TI mengajukan permintaan data dari departemen dan analis. Pengembangan alat analitik swalayan seperti Tableau dan Looker telah memungkinkan pengguna bisnis untuk mengakses dan menganalisis data secara langsung.

Pergeseran ini memiliki implikasi besar untuk bagaimana perusahaan mengatur sumber daya mereka di sekitar data.

Dari batch ke pemrosesan data waktu nyata

. Karena alur data menjadi lebih ramping dan data menjadi lebih mudah diakses di seluruh organisasi, jeda waktu antara saat peristiwa terjadi dan saat dianalisis perlu dikurangi.

Ini berarti bahwa lebih banyak perusahaan yang melihat pemrosesan data secara real-time daripada menggabungkan data dalam jangka waktu yang lebih lama.

Dari database tertutup hingga kepemilikan federasi (Domain)

Arsitektur data tradisional dibangun di sekitar basis data tertutup dan kepemilikan gabungan, yang telah menyebabkan proliferasi danau data, data mart, dan gudang data.

Arsitektur ini berfokus pada komputasi terpusat dan infrastruktur penyimpanan. Karena layanan cloud telah matang dan dimodernisasi, demikian juga pendekatan untuk merancang tumpukan data.

Arsitektur data saat ini harus mampu menangani skala dan kompleksitas aplikasi modern yang didistribusikan di berbagai teknologi. Di sinilah konsep mesh data masuk — arsitektur baru yang memungkinkan semua jenis data diakses dengan aman, diatur dengan mudah, dan digunakan oleh aplikasi apa pun di mana pun.

Andalkan pemangku kepentingan Anda

Ada tiga jenis pemangku kepentingan utama dalam hal tumpukan data modern.

Pemangku kepentingan internal

Ini adalah orang-orang dalam organisasi Anda yang akan menggunakan data dalam pekerjaan sehari-hari mereka.

Misalnya, tim penjualan mungkin tertarik pada berapa banyak pendapatan yang diperoleh setiap pelanggan dan bagaimana meningkatkan pendapatan itu. Atau, mungkin tim pemasaran tertarik dengan jenis konten apa yang mendorong lalu lintas situs web paling banyak.

Pemangku kepentingan internal harus memiliki suara dalam data apa yang Anda kumpulkan, bagaimana Anda menyusun data itu, dan alat apa yang Anda gunakan untuk menganalisisnya.

Pemangku kepentingan eksternal

Ini adalah orang-orang dari luar perusahaan Anda, tetapi mereka masih memiliki andil dalam kesuksesan Anda.

Misalnya, jika bisnis Anda adalah perusahaan perangkat lunak sebagai layanan (SaaS), maka pengguna produk Anda adalah pemangku kepentingan eksternal. Jika bisnis Anda menjual produk secara online dan mengirimkannya ke seluruh negeri atau ke seluruh dunia, maka pelanggan dan pemasok adalah pemangku kepentingan eksternal.

Sangat penting untuk memahami apa yang mereka butuhkan dari Anda sehingga Anda dapat mengirimkan data tersebut dengan benar dan efisien.

Pemangku kepentingan pihak ketiga

Ini adalah orang-orang di luar organisasi Anda yang juga memberikan layanan kepada perusahaan Anda. Misalnya, vendor yang memasok bahan mentah atau konsultan TI yang membantu menyiapkan infrastruktur teknologi Anda. Jika Anda ingin menghindari lalat buta dalam hal data, Anda perlu menguasai analisis data. Ini akan semakin membutuhkan pengembangan data di luar empat dinding Anda.

Tumpukan data modern memperkuat hubungan antara perusahaan dan pemangku kepentingannya dengan pembagian data yang lebih efisien berkat domain yang ditentukan untuk setiap tim dan kemampuan untuk menggunakannya dalam lingkungan tanpa kode.

Domain data memperkuat hubungan antar tim karena mereka semua beroperasi di domain yang sama.

Misalnya, tim pemasaran ingin mengetahui berapa banyak orang yang mendaftar untuk produk atau layanan baru mereka dan berapa banyak pendapatan yang dihasilkan setelah mendaftar. Data yang dihasilkan oleh tim produk relevan dengan tim pemasaran karena keduanya bekerja di ruang yang sama.

Kesimpulan

Seperti yang Anda lihat, ada banyak hal yang perlu dipertimbangkan saat menyiapkan tumpukan data Anda. Mengingat semua komponen berbeda yang terlibat, ini adalah tugas besar dan mungkin sulit untuk merangkul semua bagian yang bergerak.

Memahami mengapa Anda memerlukan tumpukan data dan bagaimana hal itu akan menguntungkan bisnis Anda memungkinkan Anda untuk merencanakan jangka panjang dengan menetapkan proses dan jadwal yang jelas untuk implementasi. Manfaat menggunakan tumpukan data modern adalah untuk mengatasi tantangan apa pun di sepanjang jalan, tidak hanya dalam hal proyek dan inisiatif individu, tetapi juga dalam hal membangun fondasi yang kuat yang membantu Anda membuat keputusan yang lebih baik secara keseluruhan.