การเพิ่มคุณค่าของนักวิทยาศาสตร์ข้อมูลในระบบนิเวศของ Big Data

เผยแพร่แล้ว: 2016-10-15
สารบัญ แสดง
คู่มือ
อัตโนมัติ
วิธีเพิ่มมูลค่าให้มากขึ้นโดยนักวิทยาศาสตร์ข้อมูล

การเข้าถึงและอิทธิพลมหาศาลของบิ๊กดาต้าในเกือบทุกแนวดิ่งของอุตสาหกรรมไม่เป็นที่รู้จัก ด้วยบิ๊กดาต้า ห่วงโซ่การสื่อสาร ความคิดเห็น และการกล่าวถึงแบรนด์ที่ดูเหมือนใหญ่และซับซ้อนได้รับการวิเคราะห์ในระดับที่ละเอียด จุดประสงค์ของแบบฝึกหัดนี้คือเพื่อปลดล็อกข้อมูลเชิงลึกที่อาจเคยถูกซ่อนไว้จากมุมมองของผู้มีอำนาจตัดสินใจของบริษัท รับกรณีของ American Express บริษัทการ์ดยักษ์ใหญ่ต้องการนำเสนอมากกว่าแค่ตัวชี้วัดตามหลังเพื่อขับเคลื่อนแผนการเติบโตเชิงรุกไปข้างหน้า สิ่งนี้ทำให้ AmEx ลงทุนในการสร้างแบบจำลองการทำนายที่ซับซ้อนแต่ทรงพลังซึ่ง รับตัวแปร ได้ มากถึง 115 ตัว จุดประสงค์ของการฝึก? เพื่อดูวิธีการเพิ่มความภักดีต่อตราสินค้าในหมู่ลูกค้าและลดการปั่นป่วนของลูกค้าด้วยความช่วยเหลือของ Big Data

วิทยาศาสตร์ข้อมูล

การวิเคราะห์เชิงคาดการณ์นี้เป็น รูปแบบ หนึ่งของ Data Science ซึ่งเป็นสาขาที่ช่วยดึงความรู้หรือข้อมูลเชิงลึกจาก Big Data (ทั้งแบบมีโครงสร้างและไม่มีโครงสร้าง) การนำวิทยาศาสตร์ข้อมูลไปใช้อื่นๆ ได้แก่ การวิเคราะห์ทางสถิติ การ ทำเหมือง ข้อมูล วิศวกรรมข้อมูล แบบจำลองความน่าจะเป็น การแสดงภาพ และการเรียนรู้ของเครื่อง วิทยาศาสตร์ข้อมูลเป็นส่วนหนึ่งของโดเมนที่ใหญ่กว่าของการแข่งขัน ซึ่งรวมถึงการวิเคราะห์ข้อมูลและการทำเหมืองข้อมูล

การดูการขับเคลื่อนประสิทธิภาพการทำงานของนักวิทยาศาสตร์ข้อมูลยุคหน้า

James Kobielus ผู้เผยแพร่ Big Data Evangelist ของ IBM ได้จัดทำ บทความ ที่น่าสนใจซึ่งเน้นถึงวิธีต่างๆ ในการเพิ่มประสิทธิภาพการทำงานของนักวิทยาศาสตร์ข้อมูลรุ่นต่อไป ในทางกลับกัน อาจส่งผลกระทบต่อความมั่งคั่งของเศรษฐกิจ การเงิน และสังคมโลก

เขารับทราบถึงบทบาทที่สำคัญในภารกิจของนักวิทยาศาสตร์ข้อมูลในการให้คุณค่ากับสภาพแวดล้อมทางธุรกิจที่ไม่หยุดนิ่ง คุณค่าของพวกเขาครอบคลุมการรวมโซลูชันที่ทำซ้ำได้ต่างๆ เพื่อช่วยวิเคราะห์ข้อมูลและสร้างข้อมูลเชิงลึกที่มีความหมายเพื่อช่วยผู้มีส่วนได้ส่วนเสียในกระบวนการตัดสินใจ

ข้อมูลใหญ่

เหตุใดการเพิ่มประสิทธิภาพการทำงาน ของนักวิทยาศาสตร์ข้อมูลจึงเป็นสิ่งสำคัญ

นักวิทยาศาสตร์ข้อมูลมีบทบาทและความรับผิดชอบที่หลากหลายภายในระบบนิเวศของข้อมูลขนาดใหญ่ทั้งหมด ซึ่งรวมถึงงานต่างๆ เช่น –

  1. คู่มือ

  • การออกแบบและพัฒนาแบบจำลองทางสถิติ
  • กำลังวิเคราะห์ประสิทธิภาพของโมเดลเหล่านี้
  • การตรวจสอบแบบจำลองด้วยข้อมูลจริง
  • ดำเนินงานที่ยากในการถ่ายทอดข้อมูลเชิงลึกในลักษณะที่ผู้เชี่ยวชาญด้านข้อมูล (ผู้มีส่วนได้ส่วนเสียและผู้มีอำนาจตัดสินใจ) สามารถเข้าใจได้
  1. อัตโนมัติ

  • การเริ่มต้น การระดมความคิด และการวิจัยเกี่ยวกับธุรกิจของลูกค้าและการรวบรวมข่าวกรอง
  • การค้นพบข้อมูล
  • การทำโปรไฟล์ข้อมูล
  • การสุ่มตัวอย่างและการจัดระเบียบข้อมูล

เห็นได้ชัดว่างานเหล่านี้เรียกร้องให้มีชุดของความเชี่ยวชาญด้านทุนมนุษย์ที่ไม่สามารถพบได้ในบุคคลเพียงคนเดียว ต้องสร้างทีมงานที่เชี่ยวชาญในด้านต่างๆ ที่สำคัญกว่านั้นคือต้องสอดคล้องกันเพื่อให้วัตถุประสงค์ทางธุรกิจของการมีทีมนักวิทยาศาสตร์ข้อมูลเป็นไปอย่างเป็นมิตรและปราศจากการเมืองใด ๆ และสิ่งนี้สามารถทำได้โดยมีชุดกระบวนการและโปรโตคอลที่แข็งแกร่งซึ่งจำเป็นต้องปฏิบัติตามโดยทุกคนในทีม

อย่างไรก็ตาม การตั้งค่าและบังคับใช้โปรโตคอลเหล่านี้ไม่ได้หมายความว่าประสิทธิภาพการทำงานของนักวิทยาศาสตร์ข้อมูลจะลดลงเสมอไป James ดูตัวอย่างในชีวิตจริงที่มีการตั้งค่ากระบวนการต่างๆ เพื่อให้แน่ใจว่านักวิทยาศาสตร์ด้านข้อมูลมีประสิทธิภาพสูงสุดในสภาพแวดล้อมของทีมที่ซับซ้อน ตัวอย่างหนึ่งที่เขากล่าวถึงโดยเฉพาะในบริบทนี้คือ Ben Lorica จาก O'Reilly บทความนี้ มุ่งที่จะนำเสนอข้อดีด้านประสิทธิภาพการทำงานด้านล่างให้กับนักวิทยาศาสตร์ด้านข้อมูล:

  • บทบัญญัติของ API แบบออฟไลน์ที่สามารถใช้ได้เพื่อจัดการกับขั้นตอนหลักและขั้นตอนย่อยต่างๆ ของโดเมนการวิเคราะห์ข้อมูลและการแสดงภาพ การปรับปรุงกระบวนการจากต้นทางถึงปลายทางของการประมวลผลแมชชีนเลิร์นนิงสามารถช่วยได้ในทุกเหตุการณ์สำคัญของโครงการ สามารถปรับปรุงการลดเวลาและค่าใช้จ่ายได้อย่างทวีคูณ และการลดลงนี้เป็นมากกว่าต้นทุนที่เกี่ยวข้องกับการติดตั้งซอฟต์แวร์ในระบบที่มีอยู่ขององค์กรของคุณ
  • ชนิดข้อมูล เช่น มัลติมีเดีย (เสียง วิดีโอ เนื้อหา) มีบทบาทสำคัญในการสตรีมสื่อและการคำนวณทางปัญญา ด้วยการเรียนรู้ของเครื่องอัตโนมัติ การดูดซับและการวิเคราะห์ข้อมูลประเภทนี้สามารถทำได้ง่าย เบ็นแนะนำว่าควรใช้ไปป์ไลน์ตัวอย่างสำหรับการพูดและคอมพิวเตอร์วิทัศน์และตัวโหลดข้อมูลสำหรับข้อมูลประเภทอื่น
  • แอปพลิเคชันสามารถช่วยในการติดตามการฝึกอบรม การใช้งาน และความสมบูรณ์แบบของแบบจำลองทางสถิติและการคาดการณ์ได้อย่างรวดเร็ว ตัวอย่างของอัลกอริธึมการเรียนรู้ของเครื่องที่ปรับขนาดได้ดังกล่าว ได้แก่ รันไทม์ แบบ Spark-based
  • ความสามารถในการทำงานของนักวิทยาศาสตร์ด้านข้อมูลสามารถเพิ่มขึ้นได้ด้วยการขยายขั้นตอนการประมวลผลของโครงการการเรียนรู้ของเครื่องมัลติฟังก์ชั่นอย่างชาญฉลาด ตัวอย่างของส่วนประกอบดังกล่าวรวมถึงการรวมและโหลดไลบรารีและตัวเพิ่มประสิทธิภาพ อินสแตนซ์อื่นๆ ของส่วนประกอบเหล่านี้รวมถึงอาร์เรย์ที่หลากหลายของ ตัวโหลด ข้อมูล ตัวระบุคุณสมบัติ และตัวจัดสรรหน่วยความจำ

นอกจากนี้ยังพูดถึงการออกแบบ การกำหนดอย่างชัดเจน และการตั้งค่าขอบเขตข้อผิดพลาดเพื่อช่วยตรวจสอบประสิทธิภาพของโครงการแมชชีนเลิร์นนิง ด้วยความช่วยเหลือของความพยายามนี้ ประสิทธิภาพจริงสามารถวัดเทียบกับเกณฑ์มาตรฐานที่กำหนดไว้ล่วงหน้า นอกจากนี้ยังสามารถช่วยในการปรับแต่งแบบจำลองได้หากมีการเบี่ยงเบนประสิทธิภาพที่แท้จริงของแบบจำลองจากผลลัพธ์ที่คาดหวัง

นี่เป็นตัวอย่างหนึ่งของความพยายามที่เกิดขึ้นทั่วโลกในองค์กรต่างๆ เพื่อกระตุ้นผลิตภาพของนักวิทยาศาสตร์ด้านข้อมูล ด้วยความพยายามเหล่านี้ พวกเขาทำหน้าที่ของตนในสภาพแวดล้อมที่ซับซ้อนอย่างลึกซึ้ง ซึ่งกระทบต่อบุคลากร กระบวนการ โปรโตคอล และความคาดหวังที่หลากหลาย

วิธีเพิ่มมูลค่าให้มากขึ้นโดยนักวิทยาศาสตร์ข้อมูล

จากนั้น James ยังเน้นย้ำถึงวิธีการที่นักวิทยาศาสตร์ด้านข้อมูลสามารถรวบรวมความยอดเยี่ยมในงานของตน และทำได้ดีอย่างน่าทึ่งกับการวิเคราะห์ข้อมูลและช่องแสดงภาพ มีสองด้าน – หนึ่งคือเทคโนโลยี (ในรูปแบบของโซลูชันเช่น Hadoop, R, Python และ Spark) และอีกอันคือทีมผู้เชี่ยวชาญที่สร้างจุดสัมผัสสำหรับนักวิทยาศาสตร์ข้อมูล (นักพัฒนาแอปพลิเคชันข้อมูล, ผู้สร้างโมเดล, วิศวกรข้อมูล, อาวุโส ผู้บริหารและผู้เชี่ยวชาญ ETL) ทั้งคู่ควรทำงานควบคู่กันเพื่อสร้างสภาพแวดล้อมที่ส่งเสริมประสิทธิภาพการทำงานที่สูงขึ้นสำหรับนักวิทยาศาสตร์ด้านข้อมูล เจมส์ได้ระบุวิธีที่จะบรรลุเป้าหมายนี้ไว้สองสามวิธี

  1. ง่ายต่อการทำงานกับชุดข้อมูลหลายชุด – พิจารณากรณีของศูนย์การแพทย์ สามารถรักษาและจัดเก็บบันทึกนับล้านสำหรับผู้ป่วยหลายพันคน ข้อมูลเหล่านี้อาจรวมถึงข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง (ภาพทางพยาธิวิทยา บันทึกของแพทย์ ฯลฯ) การใช้งานบิ๊กดาต้าโดยทั่วไปคือการสร้าง Hadoop data lake และควบคุมข้อมูลเพื่อการใช้งานต่อไป อีกตัวอย่างหนึ่งอาจเป็นโพสต์และความคิดเห็นในโซเชียลมีเดียที่รวบรวมและจัดเก็บไว้ในกลุ่มข้อมูล นักวิทยาศาสตร์ข้อมูลจะต้องสามารถรับข้อมูลจากชุดข้อมูลที่หลากหลายได้อย่างง่ายดาย ตัวอย่างบางส่วน ได้แก่ – Data Lake, Data Clusters, บริการคลาวด์
  2. Excel ในความรับผิดชอบในการทำงาน – การวิเคราะห์ข้อมูล การสร้างแบบจำลองการคาดการณ์ การเรียนรู้ของเครื่อง การทำเหมืองข้อมูล และการแสดงภาพ นี่เป็นเพียงส่วนหนึ่งของหน้าที่ต่างๆ ที่นักวิทยาศาสตร์ข้อมูลเกี่ยวข้อง ค่อนข้างเป็นธรรมชาติ เขา/เธอจะต้องทำกิจกรรมมากมายเพื่อทำงานให้สำเร็จ ซึ่งอาจรวมถึงการค้นพบข้อมูลอย่างน้อยหนึ่งรายการ การรวมข้อมูลที่คล้ายคลึงกัน การถ่วงน้ำหนักของข้อมูลเพื่อให้เข้ากับจักรวาล จัดเตรียมและดูแลจัดการแบบจำลองสำหรับการสร้างข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้น และกำหนด ทดสอบ และตรวจสอบสมมติฐาน ไม่ว่าจะเป็นข้อมูลที่มีโครงสร้างอย่างง่ายหรือข้อมูลที่มีโครงสร้างหลายโครงสร้างที่ซับซ้อนมากขึ้น
  3. ประสบการณ์ตรง – มอบขอบเขตให้นักวิทยาศาสตร์ข้อมูลทุกด้านเพื่อนำความรู้ด้านการทำงานของแอพพลิเคชั่นการวิเคราะห์บิ๊กดาต้าไปใช้ สิ่งเหล่านี้อาจรวมถึง R, Python, Spark และ Hadoop
  4. ขยายความเก่งกาจของพวกเขา – ดังที่ได้กล่าวไว้ก่อนหน้านี้นักวิทยาศาสตร์ด้านข้อมูลต้องโต้ตอบกับผู้เชี่ยวชาญหลายคนในบทบาทและความรับผิดชอบในแต่ละวันของเขา/เธอ ซึ่งรวมถึงนักพัฒนาแอปพลิเคชันข้อมูล ผู้สร้างโมเดล วิศวกรข้อมูล ผู้บริหารระดับสูง และผู้เชี่ยวชาญ ETL จุดสัมผัสจำเป็นต้องแบ่งปันความรู้เกี่ยวกับไลบรารีและเทมเพลตที่สามารถช่วยบรรเทาการทำงาน และความเข้าใจในหัวข้อต่างๆ เช่น การเรียนรู้ของเครื่อง การสำรวจทางสถิติ โครงข่ายประสาทเทียม คลังข้อมูล การแปลงข้อมูล และการได้มาซึ่งข้อมูล
  5. การติดตามความคืบหน้า – นักวิทยาศาสตร์ด้านข้อมูลให้น้ำหนักจำนวนมากแก่การคิดค้น ออกแบบ และดำเนินการ กระบวนการในการจัดการชุดข้อมูลขนาดใหญ่เพื่อใช้สำหรับการสร้างแบบจำลอง การวิจัยทางสถิติ และการทำเหมืองข้อมูล เขา/เธอยังทำหน้าที่เสริมมากมาย เช่น การพัฒนากรณีธุรกิจ การโต้ตอบกับผู้ขายที่เป็นบุคคลภายนอก การจัดการวงจรชีวิตของโครงการวิเคราะห์ข้อมูลทั้งหมด ทำให้ทีมมีแนวปฏิบัติที่ดีจนถึงที่สุด และโต้ตอบกับผู้มีส่วนได้ส่วนเสียด้วยการอัปเดตอย่างสม่ำเสมอเกี่ยวกับความคืบหน้า ของโครงการ ภายใต้สภาพแวดล้อมที่เอื้ออำนวย นักวิทยาศาสตร์ข้อมูลจะต้องสามารถติดตาม บังคับใช้ และตรวจสอบการทำงานที่ถูกต้องของส่วนประกอบต่างๆ ที่ทำให้เขา/เธอทำงานได้อย่างถูกต้อง ส่วนประกอบเหล่านี้รวมถึงไลบรารี การสร้างแบบจำลอง การรวมเทคโนโลยี ข้อมูล อัลกอริธึม และข้อมูลเมตา

ด้วยคำแนะนำที่เป็นประโยชน์เหล่านี้ James ได้นำเสนอวิธีที่สามารถเพิ่มคุณค่าของนักวิทยาศาสตร์ข้อมูลในระบบนิเวศของ Big Data ได้

วางแผนที่จะรับข้อมูลจากเว็บหรือไม่? เราอยู่ที่นี่เพื่อช่วย แจ้งให้เราทราบ เกี่ยวกับความต้องการของคุณ