คุณสมบัติที่สำคัญของ Data Scientist

เผยแพร่แล้ว: 2017-01-12
สารบัญ แสดง
การคิดเชิงสถิติ
ทักษะการเขียนโปรแกรม
จิตใจที่อยากรู้อยากเห็น
ลักษณะที่เน้นผลลัพธ์
ความคิดสร้างสรรค์
ความเข้าใจฐานข้อมูล
ทักษะการสื่อสารที่ดี
ความหิวสำหรับข้อมูล

ข้อมูลขนาดใหญ่เติบโตขึ้นตั้งแต่รุ่งอรุณของเทคโนโลยีสารสนเทศ ตอนนี้ ข้อมูลที่เราสร้าง วันเว้นวันเทียบเท่ากับข้อมูลทั้งหมดที่เรารวบรวมมาจนถึงปี 2546 ข้อมูลจำนวนมหาศาลนี้มีข้อมูลเชิงลึกที่ประเมินค่าไม่ได้สำหรับธุรกิจเท่านั้น แต่รวมถึงเผ่าพันธุ์มนุษย์ทั้งหมดด้วย การวิเคราะห์ข้อมูลขนาดใหญ่ได้ช่วยอุตสาหกรรมการดูแลสุขภาพด้วยการวิจัยมาระยะหนึ่งแล้ว ยิ่งไปกว่านั้น ข้อมูลขนาดใหญ่อาจช่วยไขปริศนา มะเร็ง ได้ในไม่ช้า

ถ้าฉันบอกคุณว่า Big data เป็นเพียงกองข้อมูลที่ไม่เข้าท่าจริงๆ ถ้าคุณไม่รู้วิธีใช้งาน นี่คือจุดที่นักวิทยาศาสตร์ข้อมูลเข้ามาในภาพ เพื่อให้เข้าใจถึงข้อมูลขนาดใหญ่ เราต้องการนักวิทยาศาสตร์ข้อมูล และนักวิทยาศาสตร์ที่ดีต้องแม่นยำ และอย่าปล่อยให้ชื่อ 'นักวิทยาศาสตร์ข้อมูล' หลอกคุณ มีคุณสมบัติบางประการที่นักวิทยาศาสตร์ข้อมูลควรมีเรียกว่าเป็นคุณสมบัติหนึ่ง หากคุณกำลังมองหาการจ้างนักวิทยาศาสตร์ข้อมูลหรือกำลังวางแผนที่จะเป็นตัวคุณเอง นี่คือคุณสมบัติที่คุณควรมองหาหรือมีไว้ครอบครอง

นักวิทยาศาสตร์ข้อมูล

การคิดเชิงสถิติ

การเปลี่ยนข้อมูลให้เป็นข้อมูลเป็นงานหลักของนักวิทยาศาสตร์ข้อมูล ความรู้ด้านสถิติจึงเป็นคุณภาพที่ไม่ต้องพูดถึง การมองสิ่งต่าง ๆ ด้วยกรอบความคิดเชิงปริมาณเป็นสิ่งสำคัญที่จะต้องวางตัวเป็นกลางและหลีกเลี่ยงอคติในขณะที่จัดการกับข้อมูล นักวิทยาศาสตร์ข้อมูลที่ดีเข้าใจดีว่าความลึกและความน่าเชื่อถือของข้อมูลเชิงลึกเพิ่มขึ้นตามสัดส่วนของปริมาณข้อมูล และละเว้นจากการสรุปผลด้วยข้อมูลไม่เพียงพอ ด้วยข้อมูลจำนวนมหาศาล แนวโน้มและข้อมูลเชิงลึกจะปรากฏเป็นตัวเลข ความรักในตัวเลขจึงเป็นสิ่งจำเป็นสำหรับการเป็นนักวิทยาศาสตร์ข้อมูลที่แท้จริง นักวิทยาศาสตร์ข้อมูลควรจะสามารถสอบสวนข้อมูลจำนวนมากเพื่อให้ได้มาซึ่งข้อมูลเชิงลึกที่นำไปปฏิบัติได้ จากนั้นจึงใช้เทคนิคการสร้างแบบจำลองเชิงคาดการณ์เพื่อคาดการณ์แนวโน้มในอนาคต การคงไว้ซึ่งสถิติเป็นสิ่งจำเป็นสำหรับการเตรียมรายงานและการวางแผนแนวทางการดำเนินการที่แนะนำตามข้อมูลเชิงลึก

ทักษะการเขียนโปรแกรม

นักวิทยาศาสตร์ข้อมูลจะทำงานร่วมกับทีมต่างๆ เพื่อสร้างไปป์ไลน์ เครื่องมือ โมดูล แพ็คเกจ เว็บไซต์ แดชบอร์ด และอื่นๆ อีกมากมาย นี่ไม่ได้หมายความว่านักวิทยาศาสตร์ข้อมูลควรเป็นผู้เชี่ยวชาญในการเขียนโปรแกรม แต่ความเข้าใจในอัลกอริทึมและวิธีการทำงานของรหัสสามารถไปได้ไกลในการทำงานของนักวิทยาศาสตร์ข้อมูล เมื่อระบบไม่สามารถให้แนวโน้มหรือข้อมูลเชิงลึกที่ถูกต้องแก่คุณได้ ก็ถึงเวลารวบรวมและเขียนโค้ด สิ่งนี้จะเป็นไปไม่ได้หากไม่มีทักษะการเขียนโปรแกรมและความยืดหยุ่นทางเทคนิค

Python ได้รับการยอมรับว่าเป็นภาษาการเขียนโปรแกรมที่หลากหลายและเข้ากันได้มากที่สุด และเหมาะสำหรับการจัดการฐานข้อมูลและการสืบค้นประเภท MapReduce การเรียนรู้ภาษาและโอเพ่นซอร์สเป็นเรื่องง่าย การเรียนรู้ python ไม่ควรเป็นอุปสรรคมากนักระหว่างคุณกับความฝันด้านวิทยาศาสตร์ข้อมูลของคุณ

การมี 'ทักษะการใช้รหัสหลอก' ที่ยอดเยี่ยมนั้นยังได้รับการพิจารณาจากหลายองค์กรในขณะที่จ้างนักวิทยาศาสตร์ข้อมูล 'ทักษะรหัสหลอก' คือความสามารถในการเขียนว่าแบบสอบถามหรืออัลกอริทึมควรทำงานอย่างไรในภาษาอังกฤษธรรมดา ทักษะการแก้ปัญหานี้จำเป็นต่อการก้าวขึ้นเป็นนักวิทยาศาสตร์ข้อมูล วิทยาศาสตร์ข้อมูลเป็นอุตสาหกรรมที่มาตรฐานทองคำเปลี่ยนแปลงไปในอัตราที่น่าตกใจ ซึ่งเน้นย้ำถึงความสำคัญของการมีทักษะมากกว่าสิ่งที่สถานการณ์ปัจจุบันร้องขอ

จิตใจที่อยากรู้อยากเห็น

แม้ว่าวิทยาศาสตร์ข้อมูลจะเป็นสาขาที่ค่อนข้างเก่า แต่ก็มีการค้นพบครั้งแล้วครั้งเล่า แรงผลักดันในการหาวิธีใหม่ๆ ในการแก้ปัญหาเก่าคือเหตุผลเบื้องหลัง นักวิทยาศาสตร์ข้อมูลควรมีความอยากรู้อยากเห็นอยู่เสมอ เพื่อคอยระวังวิธีใหม่ที่ดีกว่าในการรับ ผสาน และประมวลผลข้อมูล และค้นหาเครื่องมือเพื่อให้ได้ข้อมูลเชิงลึกที่ดีขึ้น นักวิทยาศาสตร์ข้อมูลในอุดมคติไม่ควรหยุดความอยากรู้อยากเห็น เนื่องจากข้อมูลมีความลับที่จะสารภาพกับคนอยากรู้อยากเห็นเท่านั้น นักวิทยาศาสตร์ด้านข้อมูลที่แท้จริงไม่ได้พยายามที่จะดูว่าข้อมูลพิสูจน์อคติของเขาได้อย่างไร แต่กลับมองหาความจริงที่ซ่อนอยู่ลึกอยู่ข้างใน

ด้วยข้อมูล สิ่งต่างๆ อาจกลายเป็นเรื่องยากในบางครั้ง และมีเพียงความอยากรู้เท่านั้นที่สามารถขับเคลื่อนคุณไปสู่ผลลัพธ์ได้ นี่คือเหตุผลที่ความอยากรู้เป็นหนึ่งในคุณสมบัติที่สำคัญที่สุดของนักวิทยาศาสตร์ข้อมูล

ลักษณะที่เน้นผลลัพธ์

การวิเคราะห์ข้อมูลเป็นเรื่องเกี่ยวกับผลลัพธ์มากกว่าตัวกระบวนการเอง ไม่สำคัญว่าคุณจะนำเสนอผลลัพธ์ด้วยข้อมูลอย่างไรตราบใดที่ยังมีผลลัพธ์ที่คาดหวัง นักวิทยาศาสตร์ด้านข้อมูลอาจต้องใช้มากกว่าหนึ่งเส้นทางในการแก้ปัญหาบางอย่างในบางครั้ง การหยุดชะงักด้วยอุปสรรคเล็กๆ น้อยๆ นั้นไม่ใช่คุณภาพที่ดีสำหรับนักวิทยาศาสตร์ด้านข้อมูล การขับเคลื่อนด้วยผลลัพธ์จะช่วยได้ในกรณีเช่น ความมุ่งมั่นอย่างแรงกล้าในการแปลงข้อมูลให้เป็นผลลัพธ์จะกลายเป็นแรงผลักดันให้ตนเอง โดยทั่วไปแล้วนักวิทยาศาสตร์ข้อมูลคือผู้ที่เปลี่ยนจากปัญหาหนึ่งไปอีกปัญหาหนึ่งในขณะที่เล่นกลภารกิจที่แตกต่างกันไปพร้อม ๆ กัน ไม่มีอะไรนอกจากผลลัพธ์ที่สามารถหยุดพวกเขาจากความพยายาม

ความคิดสร้างสรรค์

ความคิดสร้างสรรค์อาจดูเหมือนสิ่งแปลก ๆ ในรายการนี้ ความจริงก็คือ หนึ่งในคุณสมบัติที่สำคัญที่สุดสำหรับนักวิทยาศาสตร์ข้อมูล คนที่มีความคิดสร้างสรรค์ไม่กลัวที่จะทำผิดพลาด พวกเขาทดลองสิ่งใหม่ๆ และกล้าที่จะสำรวจดินแดนใหม่ๆ พวกเขาพบโอกาสในความล้มเหลวและสามารถเปลี่ยนทิศทางได้อย่างง่ายดาย สิ่งเหล่านี้จำเป็นสำหรับวิทยาศาสตร์ข้อมูล

เรามักจัดประเภทคนเป็นสมองซีกซ้ายและซีกขวา วิทยาศาสตร์แบบแข็งเช่นข้อมูลขนาดใหญ่ไม่ค่อยเกี่ยวข้องกับความคิดสร้างสรรค์และนั่นเป็นความผิดพลาดครั้งใหญ่ นักวิทยาศาสตร์ด้านข้อมูลอยู่ในที่ใดที่หนึ่งระหว่างสองประเภทและต้องการแนวความคิดสร้างสรรค์เพื่อค้นหาแนวทางใหม่และวิธีจัดการกับข้อมูล สถิติและฐานข้อมูลไม่ใช่ศาสตร์ของข้อมูล แต่เป็นเรื่องเล่าที่ทำให้ผลลัพธ์สุดท้ายของการวิเคราะห์มีประโยชน์ต่อผู้มีอำนาจตัดสินใจ

ความคิดสร้างสรรค์เพียงอย่างเดียวไม่สามารถสร้างนักวิทยาศาสตร์ข้อมูลได้แน่นอน บุคคลที่สามารถจัดทำรายงานที่ง่ายต่อการบริโภค ดึงดูดใจ และสะดุดตาอาจไม่เหมาะที่สุดสำหรับบทบาทของนักวิทยาศาสตร์ข้อมูลเสมอไป นักวิทยาศาสตร์ข้อมูลสามารถเรียกได้ว่าเป็นนักแก้ปัญหาที่สร้างสรรค์

ความเข้าใจฐานข้อมูล

ไม่ว่าคุณจะทำงานกับข้อมูลที่มีโครงสร้าง ไม่มีโครงสร้าง หรือทั้งสองอย่างรวมกัน นักวิทยาศาสตร์ข้อมูลที่ดีจะต้องมีแนวคิดพื้นฐานเกี่ยวกับการทำงานของฐานข้อมูล นอกจากนี้ ความเข้าใจพื้นฐานเกี่ยวกับฐานข้อมูลเชิงคอลัมน์และเชิงสัมพันธ์สามารถช่วยให้งานของนักวิทยาศาสตร์ข้อมูลง่ายขึ้น คลังสินค้าขององค์กรจำนวนมากยังคงใช้ฐานข้อมูลเชิงสัมพันธ์แบบเดิม นักวิทยาศาสตร์ด้านข้อมูลจะต้องมีส่วนร่วมในการตั้งค่าฐานข้อมูลเหล่านี้ด้วย แม้ว่าจะมีบุคลากรด้านเทคนิคในการดำเนินงานก็ตาม ความรู้ในการพัฒนาโครงสร้างพื้นฐานของฐานข้อมูลที่สามารถรองรับข้อมูลที่ไม่มีโครงสร้างได้เปรียบเสมือนเชอร์รี่ที่อยู่ด้านบนสุด

ทักษะการสื่อสารที่ดี

นักวิทยาศาสตร์ข้อมูลส่วนใหญ่จะทำงานร่วมกับฝ่ายเทคโนโลยี การวิเคราะห์ และนักธุรกิจในเวลาเดียวกัน S(เขา) มักจะทำหน้าที่เป็นล่ามให้กับทุกฝ่ายที่เกี่ยวข้อง เพื่อจัดการกับศัพท์แสงด้านเทคโนโลยีและธุรกิจไปพร้อม ๆ กัน และรู้ว่าจะใช้อะไรกับคนที่ต้องการทักษะในการสื่อสารที่ดี ผลลัพธ์ของการวิเคราะห์มักจะไม่สวยงาม อย่างน้อยก็สำหรับคนที่ไม่ใช่นักวิทยาศาสตร์ข้อมูล ข้อมูลเชิงลึกและแนวโน้มติดอยู่ภายในตัวเลข และควรตีความและสื่อสารไปยังทีมธุรกิจและผู้มีส่วนได้ส่วนเสียในแบบที่พวกเขาเข้าใจ นักวิทยาศาสตร์ด้านข้อมูลที่ดีควรสามารถแปลผลลัพธ์ที่ซับซ้อนจากการวิเคราะห์ให้อยู่ในรูปแบบที่เข้าใจง่ายขึ้นโดยผู้คนจากภูมิหลังที่แตกต่างกันโดยใช้การเล่าเรื่อง คำอุปมา และวิธีการสื่อสารด้วยภาพ

ความหิวสำหรับข้อมูล

นักวิทยาศาสตร์ด้านข้อมูลที่ยอดเยี่ยมมักกระหายหาข้อมูลเพิ่มเติมอยู่เสมอ การแสวงหาข้อมูลเป็นหนึ่งเดียวที่ไม่มีเป้าหมายที่ตั้งไว้ เนื่องจากข้อมูลที่มากขึ้นย่อมเป็นข้อมูลที่ดีกว่าเสมอ นักวิทยาศาสตร์ข้อมูลควรมองหาแหล่งที่มาของข้อมูลมากขึ้น วิธีที่ดีกว่าในการได้มา และวิธีการใหม่ในการประมวลผล แรงผลักดันในการรับข้อมูลเพิ่มเติมเป็นสิ่งที่นักวิทยาศาสตร์ข้อมูลต้องมี เนื่องจากข้อมูลเป็นเชื้อเพลิงสำหรับการวิเคราะห์