ทักษะด้านวิทยาศาสตร์ข้อมูลที่จำเป็นสำหรับผู้ที่ชื่นชอบ
เผยแพร่แล้ว: 2018-06-26ข้อมูลกำลังเติบโตในอัตราเลขชี้กำลัง จนถึงระดับเพตาไบต์! คุณเชื่อไหมว่าข้อมูลเก้าสิบเปอร์เซ็นต์ของโลกถูกสร้างขึ้นในช่วงสองปีที่ผ่านมาเพียงลำพัง ด้วยปริมาณนี้ การจัดการข้อมูลจึงเป็นเรื่องที่ยุ่งยาก ไม่น่าแปลกใจเลยที่ทักษะด้านวิทยาศาสตร์ข้อมูลที่สำคัญได้เข้ามามีบทบาทสำคัญ
ห้าเทียบกับบิ๊กดาต้า
ข้อมูลขนาดใหญ่มักอธิบายโดยใช้ห้า Vs กล่าวคือ ปริมาณ ความเร็ว ความหลากหลาย ความจริง และมูลค่า
- 1. Data Volume หมายถึงข้อมูลจำนวนมหาศาลที่สร้างขึ้นทุก ๆ วินาที จากอุปกรณ์มือถือหลายล้านเครื่องที่ใช้งานอยู่ในปัจจุบัน อีเมล ข้อความในทวิตเตอร์ รูปภาพ คลิปวิดีโอ ข้อมูลเซ็นเซอร์ และอื่นๆ ทั้งหมดที่เราสร้างเป็นข้อมูลที่มีค่าที่สุดสำหรับบริษัทจำนวนมาก
- 2. Data Velocity หมายถึงความเร็วที่สร้างข้อมูลใหม่ และความเร็วที่สามารถเปลี่ยนจากที่หนึ่งไปยังอีกที่หนึ่งเพื่อเพิ่มผลกำไร
- 3. Data Variety คือสิ่งที่เราทุกคนสามารถเกี่ยวข้องได้ ข้อมูลสำหรับองค์กรส่วนใหญ่หมายถึงฐานข้อมูลและแผ่นงาน Excel ในอดีต อย่างไรก็ตาม ข้อมูลในปัจจุบันมีความหมายมากกว่านั้นมาก แปดสิบเปอร์เซ็นต์ของข้อมูลทั่วโลกไม่มีโครงสร้าง ลองนึกถึงรูปภาพ วิดีโอ และการอัปเดต Twitter ที่คุณทำ
- 4. Data Veracity หมายถึง ระดับความน่าเชื่อถือของข้อมูล เมื่อข้อมูลเติบโตขึ้นจนมีขนาดใหญ่ สิ่งสำคัญคือเราต้องพยายามรักษาข้อมูลให้สะอาดที่สุดเท่าที่จะเป็นไปได้ เนื่องจากข้อมูลสกปรกเป็นไวรัสที่สามารถสร้างความเจ็บปวดให้กับคุณได้ไม่เหมือนใคร
- 5. Data Value คือมูลค่าที่แท้จริงของข้อมูลของคุณ คุณรวบรวมข้อมูลจำนวนมากและตัดสินใจที่จะทำงานกับมัน ทั้งหมดดีและดี แต่ข้อมูลที่เพิ่มมูลค่าให้กับบริษัทของคุณคืออะไร? คุณได้ประโยชน์อะไรจากการลงทุนในข้อมูล มีความสำคัญอย่างไร?
ดังนั้น ในกรณีที่คุณถูกกระแสของข้อมูลขนาดใหญ่และวิทยาศาสตร์ข้อมูล เราขอแนะนำให้คุณดูแหล่งข้อมูลทั้งห้ารายการด้านล่าง
1. ดาต้าแคมป์
Datacamp ดีที่สุดสำหรับผู้ที่ไม่มีประสบการณ์ใน Python และ R เพียงเล็กน้อยหรือไม่มีเลย โดยเริ่มต้นจากพื้นฐานและมีแนวทางแบบเป็นขั้นเป็นตอน ซึ่งคุณจะได้รับปัญหาทีละอย่าง เป็นสวรรค์สำหรับผู้เริ่มต้นและราคาอยู่ในช่วงงบประมาณ
มองหาส่วนลดมากมายที่ Datacamp เสนอให้ ในกรณีที่คุณต้องการสมัครใช้งานเป็นเวลาหนึ่งปีและเข้าถึงโปรเจ็กต์และฟีเจอร์ระดับพรีเมียม มีแทร็กหลายแทร็กที่คุณสามารถฝึกฝนได้ ซึ่งประกอบด้วยหลักสูตร 20-30 คอร์ส เพลงยอดนิยม ได้แก่ :
- ก. นักวิทยาศาสตร์ข้อมูลด้วย Python
- ข. การวิเคราะห์เชิงปริมาณด้วย R
- ค. การจัดการข้อมูลด้วย Python
- ง. การนำเข้าและทำความสะอาดข้อมูลด้วย R
- อี การแสดงข้อมูลด้วย R
หากคุณมีเวลาน้อยลง คุณยังสามารถทำหลักสูตรที่มีขนาดเล็กลง เช่น:
- ก. แนะนำ Python สำหรับ Data Science
- ข. บทนำสู่ R
- ค. การเข้าร่วมข้อมูลใน PostgreSQL
- ง. R . ระดับกลาง
2. Coursera
Coursera เป็นหนึ่งในแพลตฟอร์มที่ดีที่สุดสำหรับการเรียนรู้ทุกอย่างตั้งแต่วิทยาศาสตร์ข้อมูลไปจนถึงประวัติศาสตร์การทหาร และฉันมีประสบการณ์โดยตรง คุณสามารถเลือกตรวจสอบหลักสูตรและเข้าถึงสื่อการเรียนการสอนได้ฟรี หลักสูตร Data Science ที่ดีที่สุดบางหลักสูตรใน Coursera ได้แก่:

ก. ทักษะการวิเคราะห์และการนำเสนอข้อมูล: แนวทาง PwC– ความเชี่ยวชาญพิเศษนี้จะช่วยให้คุณได้รับประสบการณ์ตรงเกี่ยวกับการวิเคราะห์ข้อมูลและความรู้เกี่ยวกับการเปลี่ยนความฉลาดทางธุรกิจให้กลายเป็นผลลัพธ์ในโลกแห่งความเป็นจริง มันจะช่วยให้คุณมีความเข้าใจ การกรอง และการประยุกต์ใช้ข้อมูลที่ดีขึ้น ซึ่งจะช่วยให้คุณแก้ปัญหาได้เร็วยิ่งขึ้น คุณจะเชี่ยวชาญกับ Microsoft Excel, PowerPoint และเครื่องมือวิเคราะห์และสื่อสารข้อมูลทั่วไปอื่นๆ ที่สำคัญที่สุด คุณจะได้เรียนรู้การอ่านข้อมูลและนำเสนอข้อมูล
ข. Big Data, UCSD– ในกรณีที่คุณจำเป็นต้องเข้าใจข้อมูลขนาดใหญ่และจะส่งผลต่อธุรกิจของคุณอย่างไร ความเชี่ยวชาญพิเศษนี้เหมาะสำหรับคุณ คุณจะได้รับประสบการณ์ตรงจากเครื่องมือและระบบที่นักวิทยาศาสตร์และวิศวกรบิ๊กดาต้าใช้ เช่น Hadoop พร้อม MapReduce, Spark, Pig และ Hive คุณจะได้เรียนรู้การทำแบบจำลองการคาดการณ์และใช้ประโยชน์จากการวิเคราะห์กราฟเพื่อแก้ปัญหาแบบจำลอง ในกรณีที่คุณทำงานหนักจนถึงที่สุด คุณจะสามารถดำเนินโครงการ Capstone Project ที่พัฒนาร่วมกับบริษัทซอฟต์แวร์ข้อมูล Splunk ซึ่งคุณจะได้รับอนุญาตให้ใช้แนวคิดพื้นฐานที่คุณได้เรียนรู้
ค. Data Science Specializatin โดย Johns Hopkins University– ความเชี่ยวชาญพิเศษนี้ครอบคลุมแนวคิดและเครื่องมือที่คุณต้องการตลอดเส้นทางข้อมูลทั้งหมด ตั้งแต่การถามคำถามที่ถูกต้องไปจนถึงการอนุมาน ตลอดจนเผยแพร่ผลลัพธ์ในรูปแบบที่เรียบง่ายแต่ทรงพลัง .
ง. SQL สำหรับวิทยาศาสตร์ข้อมูล UC Davis- หลักสูตรนี้ออกแบบมาเพื่อให้คุณมีพื้นฐานในพื้นฐานของ SQL พร้อมกับการทำงานกับข้อมูลที่จะช่วยให้คุณย้ายไปยังความต้องการของฐานข้อมูลของโลกวิทยาศาสตร์ข้อมูล หลักสูตรเริ่มต้นด้วยพื้นฐานและถือว่าไม่มีความรู้เกี่ยวกับ SQL ความซับซ้อนเพิ่มขึ้นอย่างต่อเนื่องและค่อยๆ ทำให้คุณเขียนคิวรีทั้งแบบธรรมดาและแบบซับซ้อนเพื่อช่วยคุณเลือกข้อมูลจากตาราง
3. ดาต้าสต็อค
ลองดู Datastock ในกรณีที่คุณต้องการชุดข้อมูลเว็บที่ครอบคลุม สะอาด และพร้อมใช้งานจากอุตสาหกรรมต่างๆ ทั่วโลก โซลูชันนี้เหมาะอย่างยิ่งสำหรับผู้ที่กำลังมองหาชุดข้อมูลที่พร้อมใช้งานเพื่อทำการวิเคราะห์และรับข้อมูลเชิงลึกและรับทักษะด้านวิทยาศาสตร์ข้อมูล
ข้อดีคือ คุณจะได้รับชุดข้อมูลตัวอย่างฟรีก่อนตัดสินใจซื้อ คุณสามารถทดสอบคุณภาพข้อมูลด้วยตนเองแล้วตัดสินใจ
4. Kaggle
Kaggle เป็นสถานที่สำหรับทำโครงการวิทยาศาสตร์ข้อมูล และเป็นหนึ่งในเว็บไซต์ที่ได้รับความนิยมมากที่สุดในหมู่นักวิทยาศาสตร์ข้อมูลรุ่นใหม่ มันให้ตัวเลือกต่าง ๆ เช่น:
- ก. เริ่มโครงการใหม่ของคุณเอง
- ข. สำรวจโครงการที่สร้างโดยผู้อื่น
- ค. เข้าร่วมการแข่งขันที่ได้รับการสนับสนุนอย่างใดอย่างหนึ่ง
5. ดาต้าเควส
วิธีการลงมือปฏิบัติของพวกเขาจะสอนทักษะทั้งหมดที่จำเป็นสำหรับการเป็นนักวิทยาศาสตร์ข้อมูล นักวิเคราะห์ข้อมูล หรือวิศวกรข้อมูล คุณสามารถเรียนรู้ได้หลายวิธี:
- ก. การเขียนโค้ด
- ข. การทำงานกับข้อมูล
- ค. โครงการก่อสร้าง
