Data Scientists และวิธีการของพวกเขาของ Data Science ในโลกปัจจุบัน

เผยแพร่แล้ว: 2022-05-19
สารบัญ แสดง
นักวิทยาศาสตร์ข้อมูลที่มีชื่อเสียงที่สุดที่เดินบนโลก
อลัน ทัวริง
Alex Krizhevsky
เอียน กู๊ดเฟลโลว์
เซบาสเตียน ธรูน
แอนดรูว์ อึ้ง
และทางข้างหน้า…
การใช้โครงสร้างพื้นฐานคลาวด์เพื่อประมวลผลข้อมูล
อินเทอร์เน็ตของสรรพสิ่ง
การประมวลผลภาษาธรรมชาติที่มีประสิทธิภาพมากขึ้น
ดูแลสุขภาพ

Data Science เป็นสาขาที่เติบโตอย่างก้าวกระโดด เช่นเดียวกับข้อมูลที่มนุษย์สร้างขึ้นและสร้างขึ้นด้วยเครื่องจักร ส่งผลให้จำนวนบุคคลจากสาขาต่างๆ เช่น คณิตศาสตร์และชีววิทยาศาสตร์มีจำนวนเพิ่มขึ้น โดยนำข้อมูลมาใช้เป็นเครื่องมือในการแก้ปัญหา อัลกอริธึมไปไกลกว่าการจัดการตัวเลขและข้อความ ปัจจุบันนี้ประมวลผลข้อมูลเกือบทุกรูปแบบ เช่น รูปภาพ วิดีโอ และเสียง สิ่งนี้ทำให้บริษัทต่างๆ สามารถเข้าถึงข้อมูลที่ไม่มีโครงสร้างได้หลากหลายขึ้น แหล่งข้อมูลก็เติบโตขึ้นเช่นกัน และในปัจจุบัน ข้อมูลโซเชียลมีเดียเป็นหนึ่งในแหล่งข้อมูลสำคัญสำหรับหลายๆ บริษัทที่พยายามสร้างโปรไฟล์ส่วนบุคคล ทั้งหมดนี้อยู่เหนือข้อมูลที่มีโครงสร้างที่มีการเติบโตแบบทวีคูณอยู่แล้ว

นักวิทยาศาสตร์ข้อมูลที่มีชื่อเสียงที่สุดที่เดินบนโลก

มีการค้นพบมากมายในวิทยาศาสตร์ข้อมูล และเราสามารถคาดหวังได้มากขึ้นในอีกไม่กี่วันข้างหน้า เราอยู่ในช่วงหัวเลี้ยวหัวต่อที่มีการค้นพบการปฏิวัติในวิทยาศาสตร์ข้อมูลและกำลังถูกนำมาใช้เพื่อแก้ปัญหาในชีวิตจริง มันคุ้มค่าที่จะดูการค้นพบและการค้นพบที่ยิ่งใหญ่ที่สุดตั้งแต่เริ่มต้น

อลัน ทัวริง

Alan Turing อาจเป็นหนึ่งในนักวิทยาศาสตร์ด้านข้อมูลที่มีชื่อเสียงที่สุดที่เคยมีมา เขาถือเป็นบิดาแห่งปัญญาประดิษฐ์และวิทยาการคอมพิวเตอร์เชิงทฤษฎี

เขาได้กลายเป็นชื่อที่โด่งดังผ่านภาพยนตร์เรื่อง "The Imitation Game" อย่างไรก็ตาม การประดิษฐ์ Bombe ซึ่งเป็นอุปกรณ์ไฟฟ้าที่ใช้ทำลาย Enigma (อุปกรณ์เข้ารหัสของเยอรมันจากสงครามโลกครั้งที่สอง) ไม่ใช่การค้นพบเพียงอย่างเดียวของเขา งานวิจัยของเขานำไปสู่การสร้างเครื่องจักรเครื่องแรกที่สามารถคำนวณสถานการณ์ทางคณิตศาสตร์ทั้งหมดได้ รุ่นนำร่องของเครื่องมีความเร็วสัญญาณนาฬิกา 1MHz ซึ่งเป็นคอมพิวเตอร์ที่เร็วที่สุดในขณะนั้น ในช่วงสงครามเย็น งานวิจัยของเขาถูกใช้แม้กระทั่งในการคำนวณการเคลื่อนที่ของเครื่องบิน

นอกจากนี้ เขายังได้สร้างการทดสอบทัวริง ซึ่งเป็นชุดของกฎเกณฑ์ที่กำหนดว่าคอมพิวเตอร์สามารถคิดและทำเหมือนมนุษย์ได้หรือไม่ ขึ้นอยู่กับว่าเครื่องจักรสามารถเลียนแบบมนุษย์ได้มากเพียงใด เปอร์เซ็นต์การส่งผ่านจะถูกคำนวณ เราใช้การทดสอบหลายรูปแบบในปัจจุบัน แบบทดสอบที่พบบ่อยที่สุดคือ Captcha Captcha คือการทดสอบทัวริงย้อนกลับ ซึ่งมนุษย์จำเป็นต้องพิสูจน์ว่าพวกเขาไม่ใช่เครื่องจักร

Alex Krizhevsky

ปี 2555 ได้รับการพิสูจน์แล้วว่ามีความสำคัญสำหรับการเรียนรู้เชิงลึก (สาขาของการเรียนรู้ของเครื่องที่ใช้โครงข่ายประสาทเทียมเพื่อดึงคุณลักษณะจากข้อมูลขนาดใหญ่) Krizhevsky เสริมพลังให้กับโครงข่ายประสาทเทียมในระดับที่ไม่เคยมีมาก่อน เขาก่อตั้ง "Alexnet" ซึ่งเป็นอัลกอริทึมที่ลดอัตราข้อผิดพลาดสำหรับการแข่งขัน Imagenet ลงเหลือครึ่งหนึ่ง (เกือบ 15%) ImageNet Challenge เป็นที่ที่บุคคลจำเป็นต้องจำแนกวัตถุหลายล้านชิ้นจากหลายร้อยหมวดหมู่

อัลกอริทึมของเขาสามารถตรวจจับแมวได้อย่างแม่นยำเกือบ 75% และใบหน้าจากวิดีโอ YouTube ที่มีความแม่นยำมากกว่า 80% ซอฟต์แวร์จดจำใบหน้าที่ทำงานบนระบบรักษาความปลอดภัย หรือซอฟต์แวร์ที่คุณใช้เพื่อปลดล็อกโทรศัพท์ในปัจจุบัน ล้วนมาจากชายคนนี้ การถ่ายภาพทางการแพทย์เป็นอีกสาขาหนึ่งที่ได้รับการส่งเสริมอย่างมากจากการใช้โครงข่ายประสาทเทียมในการตรวจจับภาพ

เอียน กู๊ดเฟลโลว์

Ian Goodfellow แนะนำให้โลกรู้จัก Generative Adversarial Networks (GAN) ซึ่งสามารถมีได้ 2 แบบ ได้แก่

  1. โมเดลตัวสร้างซึ่งครั้งหนึ่งเคยฝึกเกี่ยวกับข้อมูล พยายามสร้างตัวอย่างใหม่ที่เป็นประเภทเดียวกัน
  2. โมเดลผู้เลือกปฏิบัติพยายามจัดประเภทเนื้อหาจริงและปลอม (ที่สร้างขึ้น)

น่าเสียดายที่โมเดลเครื่องกำเนิดไฟฟ้าถูกทำร้ายอย่างกว้างขวางในปัจจุบันในสิ่งที่รู้จักกันเป็นอย่างดีในชื่อ DeepFakes หลายคนโพสต์สุนทรพจน์ที่ไม่น่าเชื่อของบุคคลที่มีชื่อเสียงบนอินเทอร์เน็ต ซึ่งทั้งหมดพบว่าเป็น DeepFakes ในภายหลัง ได้เปิดเวิร์มกระป๋องที่เกือบทุกคนที่มีแล็ปท็อปและการเชื่อมต่ออินเทอร์เน็ตสามารถสร้างวิดีโอใหม่ทั้งหมดจากวิดีโอที่มีอยู่และทำให้ผู้พูดพูดอะไรก็ได้ ปัญญาประดิษฐ์ที่เล่นจะเรียนรู้จากวิดีโอที่มีอยู่ และสามารถเลียนแบบการแสดงออกทางสีหน้า เสียง และรูปแบบการพูดได้โดยอัตโนมัติ

อัลกอริธึมรุกล้ำไปโดยที่ไม่มีรหัสเครื่องอื่นใดทำมาก่อน - ความคิดสร้างสรรค์ของมนุษย์ สามารถสร้างภาพวาดและสร้างใบหน้าได้ (ที่ไม่มีอยู่จริง) ภาพวาดที่ทำโดย GAN ขายได้มากถึง $ 400K ในการประมูล บริษัทต่างๆ อย่าง Adobe ได้คิดค้นเทคนิคใหม่ๆ ในการตรวจจับเนื้อหาปลอม เนื่องจากตอนนี้สถานการณ์กำลังคลี่คลาย GAN ไม่เพียงแต่มีอิทธิพลต่อฉาก AI ในปัจจุบัน แต่มีแนวโน้มที่จะทำให้เกิดการค้นพบที่รุนแรงมากขึ้นในปีต่อๆ ไป

เซบาสเตียน ธรูน

ในขณะที่พวกคุณส่วนใหญ่คงเคยได้ยินเกี่ยวกับเทสลา บริษัทแรกที่ทำให้รถยนต์ไร้คนขับเข้าถึงคนหมู่มากได้อย่างแท้จริง มีเพียงไม่กี่คนที่เคยได้ยินชื่อเซบาสเตียน ทรูน Thrun เป็นที่รู้จักอย่างแพร่หลายในชื่อ Father of Self Driving Cars ชนะการประกวดรถยนต์ไร้คนขับที่จัดขึ้นโดย Pentagon ในปี 2548 นอกจากนี้ เขายังก่อตั้งและดำเนินโครงการ Google Driverless Car ก่อนออกเดินทางเพื่อเริ่มต้น Udacity และทำให้ผู้คนเข้าถึงการศึกษาได้มากขึ้น อย่างไรก็ตาม การจำกัดการใช้วิทยาการหุ่นยนต์ของเขาเริ่มต้นขึ้นก่อนหน้านี้เมื่อในปี 1997 เขาได้สร้างไกด์นำเที่ยวหุ่นยนต์ตัวแรกสำหรับ Deutsches Museum Bonn เขายังมีส่วนเกี่ยวข้องกับห้องปฏิบัติการ AI ชั้นนำหลายแห่ง เช่น CMU และ Stanford

แอนดรูว์ อึ้ง

มีส่วนร่วมอย่างมากทั้งจากชุมชนโอเพ่นซอร์สและจากนักวิทยาศาสตร์ข้อมูลเช่น Andrew Ng (ผู้ร่วมก่อตั้ง Coursera) เพื่อทำให้ Data Science เข้าถึงได้สำหรับคนทั่วไป Google ทำให้ TensorFlow ใช้งานได้ฟรีในปี 2015 และ Facebook ได้ดำเนินการตาม PyTorch ในปี 2016 ไลบรารีที่กำหนดเองในภาษาต่างๆ เช่น Python (เช่น Scikit Learn และ Pandas) ทำให้ทุกคนสามารถเริ่มต้นได้ภายในเวลาไม่กี่ชั่วโมง

หลักสูตรที่สอนโดย Andrew ได้ช่วยให้บุคคลที่ไม่มีพื้นฐานทางคณิตศาสตร์เข้าใจวิธีการทำงานของอัลกอริธึม AI นอกจากนี้ยังมีเว็บไซต์เช่น Kaggle และ GitHub ที่ทำให้ทุกคนบนอินเทอร์เน็ตเข้าถึงปัญหา AI ชุดข้อมูล และวิธีแก้ปัญหาได้อย่างง่ายดาย

และทางข้างหน้า…

เราเพิ่งพูดถึงโครงการวิจัยที่ใหญ่ที่สุดบางโครงการ นักวิทยาศาสตร์ และนักการศึกษาที่มีส่วนร่วมในสาขา Data Science แต่อะไรจะเกิดขึ้นต่อไป เครื่องมือใดจะมีบทบาทมากขึ้น? ปัญหาใดที่ชุมชน Data Science มุ่งเน้นไปที่ปัญหาต่อไป บริษัทพยายามใช้งานวิจัยและการค้นพบทั้งหมดนี้เพื่อขับเคลื่อนการตัดสินใจโดยใช้ข้อมูลอย่างไร หากต้องการทราบคำตอบสำหรับคำถามเหล่านี้ เราต้องดูแนวโน้มล่าสุดในสาขานี้—

การใช้โครงสร้างพื้นฐานคลาวด์เพื่อประมวลผลข้อมูล

การเก็บรวบรวมข้อมูลเติบโตขึ้นทุกปีที่ผ่านไป บริษัทต่างๆ ได้เพิ่มแหล่งข้อมูลใหม่ๆ เช่น แหล่งข้อมูลบุคคลที่สามหรือข้อมูลโซเชียลมีเดีย อย่างไรก็ตาม ความท้าทายอยู่ที่การทำความสะอาด การทำให้เป็นมาตรฐาน การประมวลผล และการจัดรูปแบบของชุดข้อมูลขนาดใหญ่ดังกล่าว เนื่องจากแหล่งข้อมูลเหล่านี้จำนวนมากสร้างข้อมูลกึ่งหรือไม่มีโครงสร้าง การประมวลผลเหล่านั้นจึงต้องใช้ทรัพยากรมากขึ้น การรันอัลกอริธึมกับข้อมูลการทดสอบสามารถพิสูจน์ได้ว่าเป็นความท้าทายที่สำคัญสำหรับเครื่องท้องถิ่น (แล็ปท็อป)

นี่คือเหตุผลที่ผู้ให้บริการระบบคลาวด์อย่าง AWS เห็นว่าธุรกิจของพวกเขาเติบโตขึ้นเป็นพันล้านดอลลาร์ บริการคลาวด์เช่น AWS S3 ให้บริการราคาถูกมากสำหรับการบันทึกข้อมูล เหล่านี้ยังเป็นบริการคลาวด์แรกๆ ที่มีอยู่ด้วย การจัดเก็บข้อมูลเป็นเพียงจุดเริ่มต้น บริการใหม่ๆ ที่เกี่ยวข้องกับการประมวลผลและการจัดรูปแบบก็พบว่ามีการใช้งานมากขึ้นเช่นกัน ทุกวันนี้ วิศวกรข้อมูลที่สามารถคำนวณและสร้างโครงสร้างพื้นฐานที่มีประสิทธิภาพสำหรับระบบที่ขับเคลื่อนด้วยข้อมูลนั้นเป็นที่ต้องการมากกว่าเมื่อเทียบกับนักวิทยาศาสตร์ด้านข้อมูล

ทั้งหมดนี้ได้เปลี่ยนวิธีที่บริษัทต่างๆ ใช้บริการบิ๊กดาต้าและบริการคลาวด์ ข้อมูลนั้นถูกนำเสนอเป็นบริการโดยผู้ให้บริการ DaaS (Data as a Service) เช่น PromptCloud บริการเหล่านี้อนุญาตให้บริษัทเข้าถึงข้อมูลของบุคคลที่สามหรือข้อมูลของคู่แข่งโดยระบุเว็บไซต์ที่พวกเขาต้องการดึงข้อมูลและจุดข้อมูลที่จำเป็น

อินเทอร์เน็ตของสรรพสิ่ง

แม้ว่า Internet of Things จะไม่ใช่เรื่องใหม่ แต่ขณะนี้อุปกรณ์ทางกายภาพกำลังพูดคุยกันมากขึ้นเรื่อยๆ มีอุปกรณ์เชื่อมต่อกับคลาวด์มากกว่าที่เคยเป็นมา และพวกเขากำลังรวบรวมและแบ่งปันข้อมูลทั้งหมดที่รวบรวมผ่านเซ็นเซอร์ของพวกเขา

สิ่งนี้ทำให้เกิดโซลูชันยุคใหม่ เช่น การวินิจฉัยระยะไกลของเครื่องจักร โซลูชันซอฟต์แวร์สามารถใช้ข้อมูลเซ็นเซอร์เพื่อให้คุณมีอายุการใช้งานโดยประมาณของชิ้นส่วนและอุปกรณ์เสริมต่างๆ ข้อมูลช่วยแจ้งเตือนบุคคลเมื่อระบบอาจหยุดทำงาน เมื่อมีการเก็บรวบรวมข้อมูลมากขึ้นและการเรียนรู้เชิงลึกทำงานได้อย่างมหัศจรรย์ เราจะใช้ข้อมูลมากขึ้นในการคาดการณ์ที่ดีขึ้นเกี่ยวกับเครื่องจักรที่เชื่อมต่อกับ IoT นอกจากนี้เรายังมีแนวโน้มที่จะเห็นการใช้งาน IoT ที่สูงขึ้นในระดับอุตสาหกรรม นอกเหนือจากหุ่นยนต์ในคลังสินค้าที่เฟื่องฟูในช่วงไม่กี่ปีที่ผ่านมา

การประมวลผลภาษาธรรมชาติที่มีประสิทธิภาพมากขึ้น

ส่วนย่อยของปัญญาประดิษฐ์ NLP เกี่ยวข้องกับภาษามนุษย์ นี่คือสิ่งที่ให้พลังกับ Siri หรือ Alexa มันเกี่ยวข้องกับวิธีการใช้ภาษาในแบบเรียลไทม์แทนที่จะเน้นที่องค์ประกอบทางไวยากรณ์เท่านั้น บริษัทต่างๆ คาดว่าจะใช้การค้นพบล่าสุดใน NLP ในผลิตภัณฑ์ใหม่ เพื่อให้บุคคลสามารถโต้ตอบกับเครื่องจักรและซอฟต์แวร์ได้ง่ายขึ้น เราอยู่ไม่ไกลจากวันที่คุณจะพูดกับคอมพิวเตอร์ของคุณและจะทำงานให้คุณ

ดูแลสุขภาพ

การเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูลมีอิทธิพลอย่างมากต่อวิทยาศาสตร์การแพทย์ เราได้ประยุกต์ใช้ในการแก้ปัญหาต่างๆ เช่น การตรวจหาเบาหวาน การระบุเซลล์มะเร็ง รังสีวิทยา และพยาธิวิทยา การศึกษาที่ดำเนินการโดยสแตนฟอร์ดแสดงให้เห็นว่า AI สามารถระบุมะเร็งผิวหนังได้เช่นเดียวกับแพทย์

ทศวรรษหน้าจะได้เห็นงานวิจัยและเอกสารจำนวนมากที่นำไปใช้จริง เราสามารถคาดหวังความก้าวหน้าหลายครั้ง–

  • การระบุและการทำนายโรคก่อนที่จะเกิดขึ้น
  • เครื่องจักรสามารถประมวลผลภาพทางการแพทย์ได้อย่างมีประสิทธิภาพมากกว่ามนุษย์
  • การพยากรณ์การระบาด เช่น โควิด-19
  • Smarter Health บันทึกและติดตามได้หลายวิธี เช่น สมาร์ทวอทช์

ระยะทางที่เราได้ครอบคลุมนั้นมาก! เราสามารถทำการคำนวณที่ต้องการเครื่องจักรที่จะเติมเต็มทั้งห้อง บนชิปขนาดเท่าเล็บเท้าในปัจจุบัน ความก้าวหน้าในการผลิตชิป ตลอดจนอินเทอร์เน็ตที่เร็วขึ้นและความเร็วในการถ่ายโอนข้อมูล มีส่วนโดยตรงต่อการเติบโตของวิทยาศาสตร์ข้อมูลและการใช้งานจริง อนาคตของวิทยาศาสตร์ข้อมูลจะขึ้นอยู่กับหลายภาคส่วนและองค์กร และวิทยาศาสตร์ข้อมูลที่เป็นประชาธิปไตยจะสร้างสนามระดับสำหรับทุกคน