คุณภาพข้อมูลในยุคของบิ๊กดาต้า

เผยแพร่แล้ว: 2020-12-23
สารบัญ แสดง
ขนาดคุณภาพข้อมูล
ก) ความถูกต้องของข้อมูล
ข). ความพร้อมใช้งานของข้อมูล
ค). ความสมบูรณ์
ง) ความสอดคล้องของข้อมูล
จ) ความทันเวลา
คุณจัดโครงสร้างระบบดังกล่าวอย่างไร?
ก) ความน่าเชื่อถือ
ข). พื้นที่ครอบคลุม
ค). แนวทางต่างๆ ในการจัดโครงสร้างระบบ
กรอบการทดสอบเฉพาะโครงการ
กรอบการทดสอบทั่วไป
วิธีการแก้

คำแรกที่นึกขึ้นในใจของคุณเมื่อคุณได้ยินคำว่า data quality คืออะไร? เป็นการยากที่จะนิยามในแง่วัตถุประสงค์ที่แท้จริง ทำไมเราต้องการมัน แต่? เพียงเพราะจำนวนข้อมูลที่มีอยู่

'ขนาด' ของข้อมูลไม่ได้เป็น tin TB อีกต่อไป แต่เป็น PB (1PB = 210TB), EB (1EB = 210PB) และ ZB (1ZB = 210EB) ตามการคาดการณ์ของ “Digital Universe” ของ IDC ข้อมูล 40 ZB ถูกสร้างขึ้นแล้วในปี 2020 แต่คุณภาพนั้นอยู่ที่จุดนั้นจริงๆ

สิ่งนี้แปลได้ดีมากเมื่อพูดถึงคุณภาพของข้อมูล ข้อมูลที่ดีอย่างที่เราได้กล่าวไปแล้วนั้นไม่ได้อธิบายง่ายขนาดนั้น คุณภาพของข้อมูลคือความสามารถของข้อมูลของคุณในการให้บริการตาม วัตถุประสงค์ที่กำหนดโดยลักษณะหลายประการ

การค้นหาออนไลน์อย่างรวดเร็วจะให้คำจำกัดความที่หลากหลายแก่คุณ ตราบใดที่คุณสามารถใช้ข้อมูลนั้นเพื่อช่วยในการตัดสินใจทางธุรกิจของคุณได้ ข้อมูลนั้นก็มีคุณภาพดี ข้อมูลคุณภาพไม่ดีจะเพิ่มภาระงานของคุณแทนที่จะช่วยเหลือ ลองนึกภาพว่าคุณได้ทำการตัดสินใจทางการตลาดบางอย่างโดยอาศัยการวิจัยรองที่ดำเนินการเมื่อสองปีที่แล้ว อะไรจะดีไปกว่านั้น

ขนาดคุณภาพข้อมูล

คุณอาจพูดโดยสังหรณ์ใจว่าข้อมูลแบบเรียลไทม์เป็นข้อมูลที่ดีที่สุด ไม่จริงทั้งหมด แม้ว่าข้อมูลจะดีพอๆ กับ 'ความสดใหม่' (เพราะว่าเรากำลังเคลื่อนที่ด้วยความเร็ววาร์ปหรืออะไรก็ตาม) แต่ก็มี ปัจจัยอื่นๆ ที่กำหนดในการเข้าถึงคุณภาพของข้อมูล ซึ่งเราไม่สามารถเพิกเฉยได้

ลักษณะที่กระจายกันของมิติคุณภาพข้อมูลมีความสำคัญเพื่อให้เข้าใจถึงคุณภาพข้อมูลได้ดีขึ้น เนื่องจากมิติคุณภาพข้อมูลไม่ทำงานในไซโล บางส่วน เช่น ความถูกต้อง ความน่าเชื่อถือ ความตรงต่อเวลา ความสมบูรณ์ และความสอดคล้อง สามารถจำแนกได้เป็นมุมมองภายในและภายนอก การจำแนกประเภทเหล่านี้แต่ละประเภทสามารถแบ่งออกเป็นมิติที่เกี่ยวข้องกับข้อมูลและที่เกี่ยวข้องกับระบบ หรือมิติคุณภาพข้อมูลสามารถจำแนกได้เป็นสี่ประเภท เนื้อหาภายใน บริบท การเป็นตัวแทน และความสามารถในการเข้าถึง

ก) ความถูกต้องของข้อมูล

มิตินี้ถูกเสียบเข้ากับความถูกต้องของ ความหมายและความถูกต้องของวากยสัมพันธ์ ส่วนหลังหมายถึงความใกล้ชิดของค่ากับองค์ประกอบของโดเมนคำจำกัดความที่เกี่ยวข้อง ในขณะที่ความถูกต้องของความหมายหมายถึงความใกล้ชิดของค่ากับมูลค่าโลกที่แท้จริง

ข). ความพร้อมใช้งานของข้อมูล

ข้อมูลประชาธิปไตยเป็นดาบสองคม แต่ข้อมูลจะดีแค่ไหนถ้าทุกคนที่ต้องการกระทืบมันไม่สามารถเข้าถึงได้?

ค). ความสมบูรณ์

เครื่องมือล้างข้อมูลจะค้นหาค่าที่หายไปในแต่ละช่อง โดยจะเติมข้อมูลเหล่านั้นเพื่อให้คุณมีฟีดข้อมูลที่ครอบคลุม อย่างไรก็ตาม ข้อมูลควรแสดงค่าว่างด้วย ค่า Null ควรกำหนดน้ำหนักเท่ากันตราบเท่าที่เราสามารถระบุสาเหตุของค่า Null ในชุดข้อมูลได้

ง) ความสอดคล้องของข้อมูล

ข้อมูลที่สม่ำเสมอจะสะท้อนถึงสถานะที่ข้อมูลเดียวกันแสดงค่าเดียวกันทั่วทั้งระบบ ตัวส่วนทั้งหมดควรอยู่บนฐานที่เท่ากันตราบใดที่มันแสดงถึงค่าเดียวกัน ข้อมูลมักจะถูกรวมจากแหล่งต่างๆ เพื่อรวบรวมข้อมูลและเปิดเผยข้อมูลเชิงลึก แต่แหล่งที่มาต่างๆ มีสคีมาและแบบแผนการตั้งชื่อที่แตกต่างกัน ซึ่งคาดว่าจะเกิดความไม่สอดคล้องกันหลังจากการรวมเข้าด้วยกัน โดยคำนึงถึงปริมาณและความหลากหลายของข้อมูลที่ถูกรวมเข้าด้วยกัน ปัญหาความสอดคล้องควรได้รับการจัดการในระยะเริ่มต้นของการผสานรวมโดยกำหนดมาตรฐานข้อมูลและนโยบายข้อมูลภายในบริษัท

จ) ความทันเวลา

ความทันเวลาของข้อมูลถูกกำหนดให้เป็นตัวแปรของวันที่ แอตทริบิวต์ datedness ประกอบด้วยอายุและความผันผวนเป็นตัววัด อย่างไรก็ตาม สิ่งนี้ไม่ควรนำมาพิจารณาหากไม่มีบริบทของแอปพลิเคชัน โดยธรรมชาติแล้ว ข้อมูลล่าสุดมีศักยภาพมากกว่าที่จะถือว่าเป็นข้อมูลคุณภาพสูง แต่ก็ไม่ได้นำหน้าความเกี่ยวข้อง

มิติข้อมูลคุณภาพของข้อมูล เช่น ความถูกต้อง ความสมบูรณ์ ความสม่ำเสมอ และการมีอยู่นั้นเกี่ยวข้องกับการจำแนกประเภทแอตทริบิวต์ความสมบูรณ์ สามารถอธิบายได้ว่าเป็นความสามารถโดยธรรมชาติของข้อมูลในการแมปกับข้อมูลที่สนใจของผู้ใช้ เมื่อเปรียบเทียบกับความสอดคล้องในการนำเสนอ การขาดความไม่สอดคล้องกันในแอตทริบิวต์ integrity ถูกกำหนดจากมุมมองของค่าข้อมูล ไม่ใช่แค่รูปแบบหรือการแสดงข้อมูลเท่านั้น

Web Scraping เป็น โซลูชันที่ได้ผลที่สุดในการตรวจสอบคุณภาพข้อมูล

การขูดเว็บใช้เครื่องมือรวบรวมข้อมูลเพื่อค้นหาข้อมูลที่จำเป็นในเว็บ สามารถผสานรวมกับระบบประกันคุณภาพอัตโนมัติเพื่อให้มั่นใจในคุณภาพของข้อมูลสำหรับทุกมิติ

คุณจัดโครงสร้างระบบดังกล่าวอย่างไร?

ในระดับที่กว้างขึ้น ระบบพยายามวัดความสมบูรณ์ของข้อมูลของคุณควบคู่ไปกับข้อมูลที่คุณรวบรวมข้อมูล

ก) ความน่าเชื่อถือ

ก) ตรวจสอบให้แน่ใจว่าช่องข้อมูลที่รวบรวมข้อมูลได้มาจากองค์ประกอบของหน้าที่ถูกต้อง

ข) สะสมไม่เพียงพอ การจัดรูปแบบก็สำคัญไม่แพ้กัน ตรวจสอบให้แน่ใจว่าข้อมูลที่คัดลอกมาได้รับการประมวลผลหลังการรวบรวมและนำเสนอในรูปแบบที่ถามระหว่างขั้นตอนการรวบรวม

ข). พื้นที่ครอบคลุม

ก) ทุกรายการที่มีจะต้องมีการขูด นั่นคือสาระสำคัญของการขูดเว็บ

ข) ต้องครอบคลุมทุกช่องข้อมูลกับทุกรายการด้วย

ค). แนวทางต่างๆ ในการจัดโครงสร้างระบบ

กรอบการทดสอบเฉพาะโครงการ

ตามชื่อที่แนะนำ กรอบการทดสอบอัตโนมัติทุกโครงการสำหรับโครงการขูดเว็บทุกโครงการที่คุณทำงานจะได้รับการปรับแต่งอย่างสมบูรณ์ แนวทางดังกล่าวเป็นที่ต้องการหากข้อกำหนดมีการแบ่งชั้นและฟังก์ชันสไปเดอร์ของคุณมีกฎเกณฑ์สูง โดยมีการพึ่งพาภาคสนาม

กรอบการทดสอบทั่วไป

อีกทางเลือกหนึ่งคือการสร้างกรอบงานทั่วไปเพื่อให้เหมาะกับความต้องการของคุณทั้งหมด วิธีนี้ใช้ได้ผลหากการขูดเว็บเป็นหัวใจสำคัญของการตัดสินใจทางธุรกิจทั้งหมด และชิ้นส่วนที่กำหนดเองจะไม่สามารถทำได้ กรอบงานนี้ยังช่วยให้สามารถเพิ่มชั้นการประกันคุณภาพให้กับโครงการได้อย่างรวดเร็ว

วิธีการแก้

บริการขูดเว็บ เป็นทางเลือกที่ดีที่สุดในการจัดการความสมบูรณ์ของข้อมูล มาพร้อมกับเลเยอร์ทั้งแบบแมนนวลและแบบอัตโนมัติ นอกจากนี้ยังกำจัดแท็ก HTML ทั้งหมดเพื่อจัดหาข้อมูลที่ 'สะอาด' บริการดึงข้อมูลเว็บระดับองค์กร เช่น PromptCloud รักษาคุณภาพข้อมูลของข้อมูลสำหรับลูกค้าหลายร้อยรายทั่วโลกและระดับเซตตะไบต์ของข้อมูลที่พวกเขาจัดหา นอกจากนี้เรายังจับมือคุณตลอดกระบวนการและทีมสนับสนุนลูกค้าของเราก็พร้อมเสมอ

ยังคงไม่มั่นใจว่าคุณภาพของข้อมูลเป็นสิ่งสำคัญใช่หรือไม่? นี่คือ เหตุผลมูลค่า 3.1 ล้านล้านดอลลาร์ สำหรับคุณ ค่าใช้จ่ายรายปีของข้อมูลคุณภาพต่ำในสหรัฐอเมริกาเพียงอย่างเดียวคือ 3.1 ล้านล้านดอลลาร์ในปี 2559

หากคุณชอบอ่านสิ่งนี้มากเท่ากับที่เราสนุกกับการเขียนสิ่งนี้ โปรดแบ่งปันความรัก เราคิดว่าคุณอาจสนุกกับการอ่านข้อความ นี้ มากพอๆ กัน