วิธีสร้างกองข้อมูลสมัยใหม่

เผยแพร่แล้ว: 2022-05-06

ในยุคเศรษฐกิจที่ขับเคลื่อนด้วยเทคโนโลยีในปัจจุบัน การจัดเก็บข้อมูลมีความซับซ้อนมากขึ้นกว่าเดิม จากข้อมูลของ IDC (International Data Corporation) ข้อมูลจำนวน 175 เซตตะไบต์จะถูกสร้างขึ้นในปี 2568 ซึ่งคิดเป็นเกือบสามเท่าของปริมาณที่สร้างขึ้นในปี 2564 (61 เซตตะไบต์)

ปริมาณข้อมูลที่สร้างกราฟ
ปริมาณข้อมูลที่สร้างกราฟ

ปริมาณข้อมูลที่สร้าง จับ คัดลอก และใช้ทั่วโลกตั้งแต่ปี 2010 ถึง 2025 จากStatista

หากคุณต้องการจัดเก็บและจัดการข้อมูลบริษัทของคุณอย่างถูกต้อง คุณต้องเข้าใจตัวเลือกที่มีอยู่มากมายและวิธีรวมเข้าด้วยกัน

โชคดีที่คู่มือนี้จะช่วยคุณสร้างกองข้อมูลที่ทันสมัย ​​ซึ่งช่วยให้คุณรวบรวม จัดเก็บ วิเคราะห์ และใช้ประโยชน์จากข้อมูลของคุณในขั้นสุดท้ายได้อย่างมีประสิทธิภาพสูงสุด พิมพ์เขียวนี้มีความยืดหยุ่นเพียงพอที่จะนำไปใช้โดยบริษัทต่างๆ ในทุกขั้นตอนของการพัฒนา ไม่ว่าจะเป็นขนาดหรือประเภทอุตสาหกรรม

ทำไมคุณถึงต้องการ data stack ที่ทันสมัย?

สแต็คข้อมูลที่ทันสมัยคือชุดเครื่องมือที่ผสานรวมสำหรับการจัดการวงจรชีวิตของข้อมูลตั้งแต่ต้นจนจบ ได้รับการออกแบบมาเพื่อรวบรวม ประมวลผล และเปิดใช้งานข้อมูลในแบบเรียลไทม์ จำเป็นสำหรับองค์กรใดๆ ที่ต้องการทำความเข้าใจแนวโน้มในระดับที่ละเอียด (เช่น ภายในองค์กรของลูกค้า) และดำเนินการกับพวกเขาก่อนที่จะถูกกำหนดอย่างถาวร

การสร้างสแต็กข้อมูลที่ทันสมัยนั้นไม่ใช่เรื่องยาก แต่ต้องใช้เวลาและความมุ่งมั่น และความเข้าใจในสิ่งที่คุณต้องการจากข้อมูลของคุณอย่างแท้จริง หากคุณจริงจังกับการปรับปรุงการดำเนินงานและรับข้อมูลเชิงลึกเกี่ยวกับลูกค้า คุณจะคุ้มค่าทุกนาทีที่ทุ่มเท เคล็ดลับคือการรู้ว่าจะเริ่มต้นจากตรงไหนและจะก้าวไปข้างหน้าอย่างไร

ส่วนที่เหลือของคู่มือนี้จะให้ข้อมูลทั้งหมดที่คุณต้องการเพื่อสร้างกองข้อมูลที่ทันสมัย คุณจะได้เรียนรู้ว่าส่วนประกอบต่างๆ ทำงานร่วมกันอย่างไร และวิธีเลือกซอฟต์แวร์สำหรับแต่ละส่วนของกองข้อมูลสมัยใหม่ของคุณ เมื่อคุณอ่านจบ คุณจะมีทุกสิ่งที่จำเป็นในการเริ่มต้นสร้างกองข้อมูลที่ทันสมัยในองค์กรของคุณวันนี้

“จากมุมมองของข้อมูล อุปกรณ์คลังข้อมูลเป็นเหมืองทองคำที่แท้จริง การทำให้พร้อมใช้งานสำหรับโซลูชันแบบบูรณาการในแนวตั้งนั้นเป็นหัวใจสำคัญของแนวคิดของอุตสาหกรรมคลาวด์”

อาชิช ทูซู

Data Lakes และ Data Warehouses: สองด้านของแพลตฟอร์มข้อมูลบนคลาวด์ที่ทันสมัย

ประโยชน์ของสแต็กข้อมูลที่ทันสมัย

ทำไมต้องลงทุนใน data stack ที่ทันสมัย? นี่คือประโยชน์บางประการ:

  • ดึงข้อมูลและโหลดข้อมูลของคุณไปยังปลายทางได้อย่างง่ายดายในไม่กี่นาที
  • วิเคราะห์ข้อมูลที่ไม่มีโครงสร้างจำนวนมาก เช่น เอกสาร ผลการค้นหา ตัวชี้วัดต่างๆ ฯลฯ โดยไม่ต้องอาศัยการเขียนสคริปต์ที่กำหนดเองหรือสร้างการสืบค้นข้อมูลเฉพาะกิจ
  • ให้ทีมธุรกิจให้บริการตนเองด้วยข้อมูลการดำเนินงาน เชื่อถือได้ และทันสมัยในเครื่องมือของตนเอง
  • ปรับใช้นวัตกรรมในองค์กรของคุณได้เร็วขึ้นด้วยการผสานรวมเครื่องมือที่ไม่ต้องใช้รหัสสำหรับทีมธุรกิจ
  • กองข้อมูลสมัยใหม่ช่วยลดค่าใช้จ่ายด้านวิศวกรรมข้อมูลโดยขจัดความจำเป็นในการสร้างและบำรุงรักษาไปป์ไลน์ข้อมูล

เข้าใจสภาพแวดล้อมปัจจุบัน

ขั้นตอนแรกในการออกแบบโซลูชันคือการทำความเข้าใจสิ่งที่คุณกำลังพยายามแก้ไข ย้อนกลับและดูว่าเครื่องมือ กระบวนการ และขั้นตอนปัจจุบันที่องค์กรของคุณใช้อยู่ในปัจจุบันคืออะไร แล้วถามตัวเองว่ามีประสิทธิภาพหรือไม่? มีพื้นที่สำหรับการปรับปรุงหรือไม่?

สแต็คข้อมูลสมัยใหม่นั้นเกี่ยวกับประสิทธิภาพ ดังนั้นหากกระบวนการปัจจุบันของคุณมีความไร้ประสิทธิภาพ (และเชื่อฉันเถอะ มี) นั่นคือพื้นที่ที่คุณสามารถปรับปรุงได้

ในบางกรณี มันอาจจะง่ายพอๆ กับการเพิ่มการทำงานร่วมกันระหว่างทีมหรืออัปเดตกระบวนการของคุณ แต่บางครั้งอาจหมายถึงการเปลี่ยนซอฟต์แวร์ที่ล้าสมัย หรือแม้แต่การแนะนำเทคโนโลยีใหม่ในสภาพแวดล้อมของคุณ

ให้เริ่มต้นด้วยการกำหนดปัญหาที่คุณกำลังแก้ไข ก่อนดำเนินการออกแบบใดๆ มันจะทำให้การใช้งานง่ายขึ้นมาก

ระบุความต้องการและเป้าหมายของธุรกิจ

ก่อนเลือกฐานข้อมูลสำหรับธุรกิจของคุณ คุณจำเป็นต้องเข้าใจรูปแบบข้อมูลของฐานข้อมูลนั้น การสืบค้นและการรายงานแบบใดที่จำเป็นต้องใช้ และใครจะเป็นผู้ใช้งาน การได้รับคำตอบสำหรับคำถามเหล่านี้จะช่วยให้ธุรกิจของคุณเริ่มต้นการวางแผนล่วงหน้าด้วย (แทนที่จะต้องเปลี่ยนแปลงไปในอนาคต)

คำถามสำคัญข้อหนึ่งที่นี่คือขนาดของที่เก็บข้อมูลของคุณ ตัวอย่างเช่น ในสถานการณ์จำลอง OLAP (การประมวลผลการวิเคราะห์ออนไลน์) คุณจะมีแถวมากมาย แต่มีข้อมูลเพียงเล็กน้อยในแต่ละแถว แต่ในสถานการณ์สมมติธุรกรรมออนไลน์ (OLTP) คุณจะมีแถวจำนวนมากที่มีข้อมูลจำนวนมาก ในแต่ละแถวต้องใช้พื้นที่จัดเก็บมากขึ้น แล้วมีความต้องการการรายงานข่าวกรองธุรกิจ (BI) ที่ต้องการพื้นที่มากยิ่งขึ้น สำหรับกรณีดังกล่าว BigQuery เป็นที่จัดเก็บข้อมูลที่สมบูรณ์แบบที่สามารถจัดการกับทั้งสามสถานการณ์ได้เป็นอย่างดี

สิ่งที่ควรพิจารณาอีกอย่างคือว่าคุณต้องการใช้ระบบคลาวด์หรือที่จัดเก็บข้อมูลภายในองค์กร ดังนั้น หากคุณได้ลงทุนในโครงสร้างพื้นฐานภายในองค์กรแล้ว Google Cloud Platform อาจไม่เหมาะกับคุณ

คำนวณความสามารถในการปรับขนาดและประสิทธิภาพ

เมื่อเลือกผู้ให้บริการระบบคลาวด์ สิ่งสำคัญคือต้องพิจารณาว่าแอปพลิเคชันของคุณจะปรับขนาดและทำงานได้ตามที่คาดไว้เมื่อเวลาผ่านไปหรือไม่

สิ่งสำคัญอีกประการหนึ่งคือการทำความเข้าใจว่าข้อมูลของคุณจะได้รับการปกป้องอย่างไรในแต่ละสภาพแวดล้อม (เช่น ศูนย์ข้อมูลอาจประสบภัยธรรมชาติ ไฟดับ หรืออุปกรณ์ขัดข้อง)

เช่นเดียวกับขั้นตอนเหล่านี้ การทำวิจัยและถามคำถามเป็นสิ่งสำคัญ บริษัทต่างๆ เช่น New Relic เสนอเครื่องมือที่สามารถช่วยคุณตรวจสอบประสิทธิภาพแอปพลิเคชันและปริมาณการใช้งานของคุณ

นอกจากนี้ องค์กรเช่น Netflix ได้สร้างเทคโนโลยีโอเพ่นซอร์สที่ออกแบบมาโดยเฉพาะสำหรับแอปพลิเคชันสมัยใหม่ที่ทำงานบนคลาวด์สาธารณะ ตัวอย่างเช่น Netflix ได้พัฒนา Security Monkey ซึ่งเป็นซอฟต์แวร์ที่ช่วยในการตรวจสอบและรักษาความปลอดภัยสภาพแวดล้อมบน AWS ขนาดใหญ่

การสำรวจเทคโนโลยีเหล่านี้เป็นสิ่งที่คุ้มค่าเมื่อประเมินผู้ให้บริการระบบคลาวด์ ความรู้ประเภทนี้มาจากการพูดคุยกับวิศวกรจากบริษัทต่างๆ และทำความเข้าใจประสบการณ์ของพวกเขา

กราฟส่วนประกอบกองข้อมูลสมัยใหม่
ส่วนประกอบสแต็คข้อมูลสมัยใหม่จาก ดาวเนปจูน

ส่วนประกอบของสแต็กข้อมูลที่ทันสมัย

ข้อมูลเป็นสินทรัพย์เชิงกลยุทธ์ เพื่อให้ได้ประโยชน์สูงสุด คุณจำเป็นต้องเข้าใจส่วนประกอบต่างๆ ที่ประกอบเป็นกองข้อมูลและวิธีการทำงานร่วมกัน

ต่อไปนี้คือองค์ประกอบหลักของกองข้อมูลที่รวมไว้เมื่อออกแบบโครงสร้างพื้นฐานข้อมูลของคุณเองสำหรับผลิตภัณฑ์ของคุณ:

  1. การนำเข้าข้อมูล
  2. การจัดเก็บข้อมูล
  3. การแปลงข้อมูล
  4. การวิเคราะห์ข้อมูล
  5. การกำกับดูแลข้อมูล

1. การนำเข้าข้อมูล

การนำเข้าข้อมูลคือการนำเข้าข้อมูลจากตำแหน่งหนึ่งไปยังปลายทางใหม่ เช่น คลังข้อมูลหรือ Data Lake เพื่อจัดเก็บและวิเคราะห์เพิ่มเติม

ขั้นตอนแรกของคุณในการสร้างกองข้อมูลที่ทันสมัยคือการระบุแหล่งข้อมูลของคุณ ด้วยเครื่องมือนำเข้าข้อมูล คุณจะสามารถนำเข้าข้อมูลทั้งหมดของคุณได้ภายในไม่กี่นาที

สมมติว่าคุณกำลังดำเนินธุรกิจอีคอมเมิร์ซ การสอบถามต้องจำกัดเฉพาะผลิตภัณฑ์ที่คุณขายและรูปแบบต่างๆ คุณไม่ต้องการให้มีการสืบค้นหลายร้อยรายการต่อวันเข้าสู่ฐานข้อมูลของคุณเพราะมีคนถามถึงรายการที่เขาไม่ได้ซื้อด้วยซ้ำ จัดอันดับและกรองผลิตภัณฑ์ของคุณตามกลุ่มลูกค้า SKU หรือตัวกรองอื่นๆ และให้การเข้าถึงที่เป็นมิตรกับผู้ใช้ผ่านปุ่ม "เยี่ยมชมร้านค้าของฉัน" เพื่อให้ลูกค้าสามารถเรียกข้อมูลประวัติการสั่งซื้อสำหรับการขายผ่านไซต์ของคุณได้อย่างง่ายดาย

ตัวอย่างเครื่องมือ: Improvado, Fivetran, Stitch, Airflow

️รายการเครื่องมือนำเข้าข้อมูล 16 อันดับแรกของเราจะช่วยให้คุณเลือกเครื่องมือที่ดีที่สุดสำหรับกองข้อมูลของคุณ️

2. การจัดเก็บข้อมูล

ด้วยการเพิ่มขึ้นของแอปพลิเคชันและไมโครเซอร์วิสแบบ Cloud-native ธุรกิจส่วนใหญ่สร้างข้อมูลจำนวนมหาศาลที่ต้องจัดเก็บและจัดการ เป็นงานที่ท้าทายสำหรับฐานข้อมูลเชิงสัมพันธ์แบบดั้งเดิม ซึ่งออกแบบมาสำหรับข้อมูลที่มีโครงสร้าง

ฐานข้อมูล NoSQL เหมาะอย่างยิ่งสำหรับข้อมูลที่ไม่มีโครงสร้าง แต่จะปรับใช้ตามขนาดได้ยาก โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมแบบไฮบริด

ผู้ให้บริการระบบคลาวด์เสนอโซลูชันที่มีการจัดการของตนเองเพื่อช่วยในขั้นตอนนี้ ตัวอย่างเช่น AWS เสนอโซลูชันที่เรียกว่า Amazon Simple Storage Service (S3) สำหรับการจัดเก็บอ็อบเจ็กต์ Google ให้บริการ BigQuery โดยเป็นส่วนหนึ่งของ Cloud Platform บริการทั้งสองมีแพลตฟอร์มที่มีความหน่วงต่ำสำหรับการจัดเก็บข้อมูลปริมาณมากตามขนาด

ตัวอย่างเครื่องมือ: Snowflake, Databricks, AWS, GCP

อ่านรายการเครื่องมือคลังข้อมูล 15 อันดับแรกของเราเพื่อค้นหาเครื่องมือที่ตรงกับความต้องการทางธุรกิจของคุณ

3. การแปลงข้อมูล

การแปลงข้อมูลเป็นกระบวนการแปลงข้อมูลจากรูปแบบหรือโครงสร้างหนึ่งไปเป็นรูปแบบหรือโครงสร้างอื่น โดยปกติ การแปลงข้อมูลจะดำเนินการโดยใช้เทคนิคการแยก แปลง และโหลด (ETL)

เรียนรู้วิธีที่กระบวนการ ETL เร่งการดำเนินการข้อมูลด้วยตนเอง

การแปลงข้อมูลมีความสำคัญในกระบวนการรวมข้อมูล เนื่องจากเป็นการเตรียมและทำให้ข้อมูลเป็นมาตรฐานสำหรับการวิเคราะห์ การรายงาน และการแสดงภาพเพิ่มเติม การแปลงข้อมูลสามารถทำได้บนชุดข้อมูลประเภทใดก็ได้ โดยไม่คำนึงถึงรูปแบบหรือการกำหนดเดิม

ตัวอย่างของเครื่องมือ: Improvado DataPrep, Dbt, MCDM, Matillon, Alteryx, RestApp

กราฟกระบวนการแปลงข้อมูล
กระบวนการแปลงข้อมูลจาก RestApp

4. การวิเคราะห์ข้อมูล

เลเยอร์การวิเคราะห์มีหน้าที่ในการรวม วิเคราะห์ และนำเสนอข้อมูลแก่ผู้ใช้ เลเยอร์การวิเคราะห์ของคุณควรตอบคำถามเช่น:

  • อะไรคือตัวชี้วัดที่สำคัญสำหรับธุรกิจของฉัน?
  • ตัวชี้วัดเหล่านั้นเปลี่ยนแปลงอย่างไรเมื่อเวลาผ่านไป
  • เมตริกหนึ่งส่งผลต่ออีกเมตริกหนึ่งอย่างไร

โดยส่วนใหญ่ นี่หมายความว่าข้อมูลของคุณจะถูกแปลงเป็นกราฟ แผนภูมิ ตาราง และการแสดงภาพอื่นๆ ที่คุณเข้าใจได้ทันที

แพลตฟอร์มการวิเคราะห์ข้อมูลล่าสุดบางแพลตฟอร์มมีความสามารถที่ช่วยให้ผู้ที่ไม่ใช่ผู้เชี่ยวชาญด้านเทคนิคสามารถศึกษาข้อมูลได้โดยไม่ต้องรู้ SQL

เครื่องมือตัวอย่าง: Looker, Tableau, Power BI

“หากไม่มีการวิเคราะห์บิ๊กดาต้า บริษัทต่างๆ จะตาบอดและหูหนวก ท่องเว็บเหมือนกวางบนทางด่วน”

เจฟฟรีย์ มัวร์ นักเขียนและที่ปรึกษา

5. การกำกับดูแลข้อมูล

จำเป็นต้องรับรองความเป็นเจ้าของและกระบวนการที่ชัดเจนสำหรับทุกขั้นตอนในไปป์ไลน์ข้อมูล ซึ่งรวมถึงการกำหนดมาตรฐานสำหรับประเภทของข้อมูลที่รวบรวมและวิธีการจัดเก็บและเข้าถึงข้อมูล ตลอดจนกระบวนการเพื่อให้แน่ใจว่ามีการปฏิบัติตามและบังคับใช้มาตรฐานเหล่านี้

สมมติว่าเป้าหมายของคุณคือการใช้ข้อมูลเพื่อปรับปรุงประสิทธิภาพการดำเนินงาน คุณอาจตัดสินใจว่าระบบสินค้าคงคลังทั้งหมดของคุณควรใช้ระบบบาร์โค้ดเดียวกัน เพื่อให้คุณได้ภาพที่สมบูรณ์ของห่วงโซ่อุปทานของคุณโดยไม่ต้องกระทบยอดรหัสหรือระบบต่างๆ ด้วยตนเอง

เครื่องมือตัวอย่าง: Atlan, Microsoft Azure Data Catalog, Informatica

กราฟผลกระทบของการกำกับดูแลข้อมูล
ผลกระทบของการกำกับดูแลข้อมูลจาก การตัดสินใจครั้งต่อไป

ย้อนกลับ ETL ทางเลือก

ธุรกิจจำนวนมากได้สร้างกองข้อมูลโดยใช้เทคโนโลยี ETL เทคโนโลยีเหล่านี้มีประโยชน์สำหรับการประมวลผลข้อมูลจำนวนมากจากหลายแหล่งและย้ายไปยังคลังข้อมูลแบบรวมศูนย์ อย่างไรก็ตาม วิธีการนี้จะเพิ่มความซับซ้อนของโครงสร้างพื้นฐานของคุณและทำให้เวลาในการจัดส่งช้าลง

ในโลกปัจจุบัน การตัดสินใจทางธุรกิจเกิดขึ้นจากข้อมูลแบบเรียลไทม์ ไม่ว่าจะเป็นด้านการเงิน การจัดการห่วงโซ่อุปทาน หรือความสัมพันธ์กับลูกค้า สแต็คข้อมูลที่ทันสมัยช่วยให้คุณส่งข้อมูลเชิงลึกแบบเรียลไทม์ทั่วทั้งองค์กรด้วยการทำให้ข้อมูลของคุณใหม่ เข้าถึงได้ และปลอดภัย

นี่คือจุดที่ Reverse ETL สามารถช่วยคุณสร้างกองข้อมูลที่ทันสมัยซึ่งมอบมูลค่าแบบเรียลไทม์ให้กับธุรกิจ และช่วยขจัดความเสี่ยงของความล้มเหลวเนื่องจากข้อมูลที่ล้าสมัย

Reverse ETL คือชุดของวิธีการหรือกระบวนการที่ซิงค์ข้อมูลจากคลังข้อมูลกับเครื่องมือปฏิบัติการ เช่น CRM, CMS, ผลิตภัณฑ์ หรือเครื่องมือทางธุรกิจใดๆ (Slack, Google ชีต เป็นต้น)

ย้อนกลับกราฟกระบวนการ ETL
โครงร่างกระบวนการ ETL แบบย้อนกลับจาก RestApp

แนวคิดเบื้องหลังกระบวนการนี้คือการสร้างแหล่งข้อมูลเดียวที่ครอบคลุมซึ่งให้มุมมองข้อมูลองค์กรที่เชื่อถือได้และสอดคล้องกัน โดยทั่วไปกระบวนการ ETL แบบย้อนกลับจะใช้เพื่อเพิ่มกระบวนการ ETL ที่มีอยู่ และทำงานตามช่วงเวลาที่กำหนด นอกจากนี้ Reverse ETL ยังเปิดใช้งานการวิเคราะห์การปฏิบัติงาน

การวิเคราะห์การดำเนินงานเทียบกับระบบธุรกิจอัจฉริยะ

Operational Analytics คือการใช้ข้อมูล การวิเคราะห์เชิงคาดการณ์ และเครื่องมือ Business Intelligence เพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับการดำเนินธุรกิจและเพื่อสร้างการดำเนินการแบบเรียลไทม์ด้วยข้อมูลที่เปิดใช้งาน

Business Intelligence (BI) ถูกกำหนดโดย Investopedia ว่าเป็นโครงสร้างพื้นฐานด้านขั้นตอนและทางเทคนิคที่รวบรวม จัดเก็บ และวิเคราะห์ข้อมูลที่ผลิตโดยกิจกรรมของบริษัท

Business Intelligence มุ่งเน้นไปที่การวิเคราะห์ข้อมูลในอดีต

ช่วยให้คุณเข้าใจว่าเกิดอะไรขึ้นและทำไม ใช้เพื่อสนับสนุนการตัดสินใจทางธุรกิจโดยการระบุรูปแบบและแนวโน้มผ่านการเปรียบเทียบข้อมูล การวัดประสิทธิภาพ และเทคนิคทางสถิติอื่นๆ

ตัวอย่างเช่น การสร้างรายงานที่แสดงจำนวนคำสั่งซื้อในช่วงเวลาหนึ่งๆ มูลค่าการสั่งซื้อเฉลี่ย และจำนวนคำสั่งซื้อทั้งหมดเป็นเรื่องที่สมเหตุสมผล

การวิเคราะห์การปฏิบัติงานเป็นแนวคิดที่มุ่งเน้นแบบเรียลไทม์และในอนาคต มุ่งเน้นไปที่สิ่งที่เกิดขึ้นในขณะนี้และการคาดการณ์สิ่งที่จะเกิดขึ้นต่อไปเพื่อให้สามารถช่วยในการใช้ประโยชน์จากโอกาสในอนาคตให้เกิดประโยชน์สูงสุด

โดยสรุป Operational Analytics แสดงให้เห็นว่าเราต้องดำเนินการใดในตอนนี้ ในขณะที่ Business Intelligence เผยให้เห็นว่าสิ่งใดที่ผิดพลาดไปและจุดที่ควรปรับปรุงคืออะไร

การวิเคราะห์การปฏิบัติงานไม่ได้จำกัดอยู่แค่ยักษ์ใหญ่ด้านดิจิทัลอย่าง Google, Facebook และ Netflix อีกต่อไป ต้องขอบคุณข้อมูลแบบเรียลไทม์ บริษัทใดๆ ที่ใช้กองข้อมูลที่ทันสมัยสามารถตัดสินใจโดยใช้ข้อมูลเป็นหลัก

จำเป็นต้องมีวิวัฒนาการขององค์กร

เมื่อบริษัทปรับใช้กองข้อมูลที่ทันสมัย ​​จะมีการเปลี่ยนแปลงหลักสามประการในวิธีการจัดการข้อมูล:

การเปลี่ยนจากไอทีมาเป็นผู้ใช้ทางธุรกิจ

ในอดีต แผนกไอทีได้ส่งคำขอข้อมูลจากแผนกและนักวิเคราะห์ การพัฒนาเครื่องมือวิเคราะห์แบบบริการตนเอง เช่น Tableau และ Looker ทำให้ผู้ใช้ทางธุรกิจสามารถเข้าถึงและวิเคราะห์ข้อมูลได้โดยตรง

การเปลี่ยนแปลงนี้มีนัยสำคัญอย่างมากต่อวิธีที่บริษัทจัดระเบียบทรัพยากรเกี่ยวกับข้อมูล

จากแบตช์ไปจนถึงการประมวลผลข้อมูลแบบเรียลไทม์

. เนื่องจากไปป์ไลน์ข้อมูลมีความคล่องตัวมากขึ้น และเข้าถึงข้อมูลได้มากขึ้นทั่วทั้งองค์กร เวลาหน่วงระหว่างเวลาที่เหตุการณ์เกิดขึ้นและเมื่อวิเคราะห์จึงจำเป็นต้องลดขนาดลง

ซึ่งหมายความว่าบริษัทจำนวนมากขึ้นกำลังมองหาการประมวลผลข้อมูลตามเวลาจริงมากกว่าการรวบรวมข้อมูลในช่วงเวลาที่นานขึ้น

จากฐานข้อมูลแบบแยกส่วนไปจนถึงความเป็นเจ้าของแบบรวมศูนย์ (โดเมน)

สถาปัตยกรรมข้อมูลแบบดั้งเดิมสร้างขึ้นจากฐานข้อมูลแบบแยกส่วนและการเป็นเจ้าของแบบรวมศูนย์ ซึ่งนำไปสู่การขยายตัวของดาต้าเลค ดาต้ามาร์ท และคลังข้อมูล

สถาปัตยกรรมเหล่านี้มุ่งเน้นไปที่การคำนวณแบบรวมศูนย์และโครงสร้างพื้นฐานการจัดเก็บข้อมูล เนื่องจากบริการคลาวด์ได้รับการพัฒนาและทันสมัย ​​แนวทางในการสร้างกองข้อมูลก็ควรเช่นกัน

สถาปัตยกรรมข้อมูลในปัจจุบันต้องสามารถจัดการกับขนาดและความซับซ้อนของแอปพลิเคชันสมัยใหม่ที่กระจายไปตามเทคโนโลยีต่างๆ ได้ นี่คือที่มาของแนวคิดของ data mesh ซึ่งเป็นสถาปัตยกรรมใหม่ที่ช่วยให้เข้าถึงข้อมูลทุกประเภทได้อย่างปลอดภัยและควบคุมได้ง่ายและใช้งานโดยแอปพลิเคชันใดก็ได้จากทุกที่

พึ่งพาผู้มีส่วนได้ส่วนเสียของคุณ

ผู้มีส่วนได้ส่วนเสียหลักสามประเภทเมื่อพูดถึงกองข้อมูลสมัยใหม่

ผู้มีส่วนได้ส่วนเสียภายใน

คนเหล่านี้คือคนในองค์กรของคุณที่จะใช้ข้อมูลในการทำงานประจำวัน

ตัวอย่างเช่น ทีมขายอาจสนใจในรายได้ที่ลูกค้าแต่ละรายได้รับ และวิธีการเพิ่มรายได้นั้น หรือบางทีทีมการตลาดอาจสนใจว่าเนื้อหาประเภทใดที่ขับเคลื่อนการเข้าชมเว็บไซต์ได้มากที่สุด

ผู้มีส่วนได้ส่วนเสียภายในควรมีสิทธิในข้อมูลที่คุณรวบรวม วิธีที่คุณจัดโครงสร้างข้อมูลนั้น และเครื่องมือที่คุณใช้ในการวิเคราะห์

ผู้มีส่วนได้ส่วนเสียภายนอก

คนเหล่านี้คือคนที่มาจากภายนอกบริษัทของคุณ แต่พวกเขายังคงมีส่วนร่วมในความสำเร็จของคุณ

ตัวอย่างเช่น หากธุรกิจของคุณเป็นบริษัทที่ให้บริการซอฟต์แวร์ (SaaS) ผู้ใช้ผลิตภัณฑ์ของคุณจะเป็นผู้มีส่วนได้เสียภายนอก หากธุรกิจของคุณขายผลิตภัณฑ์ทางออนไลน์และจัดส่งไปทั่วประเทศหรือทั่วโลก ลูกค้าและซัพพลายเออร์คือผู้มีส่วนได้ส่วนเสียภายนอก

สิ่งสำคัญคือต้องเข้าใจสิ่งที่พวกเขาต้องการจากคุณ เพื่อที่คุณจะได้ส่งข้อมูลนั้นได้อย่างถูกต้องและมีประสิทธิภาพ

ผู้มีส่วนได้ส่วนเสียที่เป็นบุคคลที่สาม

คนเหล่านี้คือบุคคลภายนอกองค์กรของคุณที่ให้บริการแก่บริษัทของคุณด้วย ตัวอย่างเช่น ผู้ขายที่จัดหาวัตถุดิบหรือที่ปรึกษาด้านไอทีที่ช่วยตั้งค่าโครงสร้างพื้นฐานด้านเทคโนโลยีของคุณ หากคุณต้องการหลีกเลี่ยงแมลงวันตาบอดในแง่ของข้อมูล คุณต้องเชี่ยวชาญในการวิเคราะห์ข้อมูล สิ่งนี้จะต้องมีการพัฒนาข้อมูลนอกกำแพงทั้งสี่ของคุณมากขึ้น

กองข้อมูลสมัยใหม่ช่วยกระชับความสัมพันธ์ระหว่างบริษัทและผู้มีส่วนได้ส่วนเสียด้วยการแบ่งปันข้อมูลอย่างมีประสิทธิภาพมากขึ้น ต้องขอบคุณโดเมนที่กำหนดไว้สำหรับแต่ละทีมและความสามารถในการใช้งานในสภาพแวดล้อมที่ไม่มีโค้ด

โดเมนข้อมูลช่วยกระชับความสัมพันธ์ระหว่างทีม เนื่องจากพวกเขาทั้งหมดทำงานในโดเมนเดียวกัน

ตัวอย่างเช่น ทีมการตลาดต้องการทราบว่ามีผู้ลงทะเบียนผลิตภัณฑ์หรือบริการใหม่กี่คน และสร้างรายได้เท่าใดหลังจากลงชื่อสมัครใช้ ข้อมูลที่สร้างโดยทีมผลิตภัณฑ์มีความเกี่ยวข้องกับทีมการตลาด เนื่องจากทั้งคู่ทำงานในพื้นที่ใกล้เคียงกัน

บทสรุป

อย่างที่คุณเห็น มีหลายสิ่งที่ต้องพิจารณาเมื่อตั้งค่ากองข้อมูลของคุณ เนื่องจากส่วนประกอบต่างๆ ที่เกี่ยวข้องกันทั้งหมด ถือเป็นงานใหญ่และอาจเป็นเรื่องยากที่จะเอาแขนไปโอบชิ้นส่วนที่เคลื่อนไหวทั้งหมด

การทำความเข้าใจว่าเหตุใดคุณจึงต้องมีชุดข้อมูลและประโยชน์ต่อธุรกิจของคุณอย่างไร ช่วยให้คุณวางแผนระยะยาวโดยกำหนดกระบวนการและระยะเวลาที่ชัดเจนสำหรับการนำไปใช้งาน ประโยชน์ของการใช้ data stack ที่ทันสมัยคือการมีมากกว่าความท้าทายตลอดทาง ไม่ใช่แค่ในแง่ของโครงการและความคิดริเริ่มเท่านั้น แต่ยังรวมถึงในแง่ของการสร้างรากฐานที่แข็งแกร่งที่ช่วยให้คุณตัดสินใจได้ดีขึ้นโดยรวม