ทักษะด้านวิทยาศาสตร์ข้อมูลที่จำเป็นสำหรับผู้ที่ชื่นชอบ

เผยแพร่แล้ว: 2018-06-26
สารบัญ แสดง
ห้าเทียบกับบิ๊กดาต้า
1. ดาต้าแคมป์
2. Coursera
3. ดาต้าสต็อค
4. Kaggle
5. ดาต้าเควส

ข้อมูลกำลังเติบโตในอัตราเลขชี้กำลัง จนถึงระดับเพตาไบต์! คุณเชื่อไหมว่าข้อมูลเก้าสิบเปอร์เซ็นต์ของโลกถูกสร้างขึ้นในช่วงสองปีที่ผ่านมาเพียงลำพัง ด้วยปริมาณนี้ การจัดการข้อมูลจึงเป็นเรื่องที่ยุ่งยาก ไม่น่าแปลกใจเลยที่ทักษะด้านวิทยาศาสตร์ข้อมูลที่สำคัญได้เข้ามามีบทบาทสำคัญ

ห้าเทียบกับบิ๊กดาต้า

ข้อมูลขนาดใหญ่มักอธิบายโดยใช้ห้า Vs กล่าวคือ ปริมาณ ความเร็ว ความหลากหลาย ความจริง และมูลค่า

  • 1. Data Volume หมายถึงข้อมูลจำนวนมหาศาลที่สร้างขึ้นทุก ๆ วินาที จากอุปกรณ์มือถือหลายล้านเครื่องที่ใช้งานอยู่ในปัจจุบัน อีเมล ข้อความในทวิตเตอร์ รูปภาพ คลิปวิดีโอ ข้อมูลเซ็นเซอร์ และอื่นๆ ทั้งหมดที่เราสร้างเป็นข้อมูลที่มีค่าที่สุดสำหรับบริษัทจำนวนมาก
  • 2. Data Velocity หมายถึงความเร็วที่สร้างข้อมูลใหม่ และความเร็วที่สามารถเปลี่ยนจากที่หนึ่งไปยังอีกที่หนึ่งเพื่อเพิ่มผลกำไร
  • 3. Data Variety คือสิ่งที่เราทุกคนสามารถเกี่ยวข้องได้ ข้อมูลสำหรับองค์กรส่วนใหญ่หมายถึงฐานข้อมูลและแผ่นงาน Excel ในอดีต อย่างไรก็ตาม ข้อมูลในปัจจุบันมีความหมายมากกว่านั้นมาก แปดสิบเปอร์เซ็นต์ของข้อมูลทั่วโลกไม่มีโครงสร้าง ลองนึกถึงรูปภาพ วิดีโอ และการอัปเดต Twitter ที่คุณทำ
  • 4. Data Veracity หมายถึง ระดับความน่าเชื่อถือของข้อมูล เมื่อข้อมูลเติบโตขึ้นจนมีขนาดใหญ่ สิ่งสำคัญคือเราต้องพยายามรักษาข้อมูลให้สะอาดที่สุดเท่าที่จะเป็นไปได้ เนื่องจากข้อมูลสกปรกเป็นไวรัสที่สามารถสร้างความเจ็บปวดให้กับคุณได้ไม่เหมือนใคร
  • 5. Data Value คือมูลค่าที่แท้จริงของข้อมูลของคุณ คุณรวบรวมข้อมูลจำนวนมากและตัดสินใจที่จะทำงานกับมัน ทั้งหมดดีและดี แต่ข้อมูลที่เพิ่มมูลค่าให้กับบริษัทของคุณคืออะไร? คุณได้ประโยชน์อะไรจากการลงทุนในข้อมูล มีความสำคัญอย่างไร?

ดังนั้น ในกรณีที่คุณถูกกระแสของข้อมูลขนาดใหญ่และวิทยาศาสตร์ข้อมูล เราขอแนะนำให้คุณดูแหล่งข้อมูลทั้งห้ารายการด้านล่าง

1. ดาต้าแคมป์

Datacamp ดีที่สุดสำหรับผู้ที่ไม่มีประสบการณ์ใน Python และ R เพียงเล็กน้อยหรือไม่มีเลย โดยเริ่มต้นจากพื้นฐานและมีแนวทางแบบเป็นขั้นเป็นตอน ซึ่งคุณจะได้รับปัญหาทีละอย่าง เป็นสวรรค์สำหรับผู้เริ่มต้นและราคาอยู่ในช่วงงบประมาณ

มองหาส่วนลดมากมายที่ Datacamp เสนอให้ ในกรณีที่คุณต้องการสมัครใช้งานเป็นเวลาหนึ่งปีและเข้าถึงโปรเจ็กต์และฟีเจอร์ระดับพรีเมียม มีแทร็กหลายแทร็กที่คุณสามารถฝึกฝนได้ ซึ่งประกอบด้วยหลักสูตร 20-30 คอร์ส เพลงยอดนิยม ได้แก่ :

  • ก. นักวิทยาศาสตร์ข้อมูลด้วย Python
  • ข. การวิเคราะห์เชิงปริมาณด้วย R
  • ค. การจัดการข้อมูลด้วย Python
  • ง. การนำเข้าและทำความสะอาดข้อมูลด้วย R
  • อี การแสดงข้อมูลด้วย R

หากคุณมีเวลาน้อยลง คุณยังสามารถทำหลักสูตรที่มีขนาดเล็กลง เช่น:

  • ก. แนะนำ Python สำหรับ Data Science
  • ข. บทนำสู่ R
  • ค. การเข้าร่วมข้อมูลใน PostgreSQL
  • ง. R . ระดับกลาง

2. Coursera

Coursera เป็นหนึ่งในแพลตฟอร์มที่ดีที่สุดสำหรับการเรียนรู้ทุกอย่างตั้งแต่วิทยาศาสตร์ข้อมูลไปจนถึงประวัติศาสตร์การทหาร และฉันมีประสบการณ์โดยตรง คุณสามารถเลือกตรวจสอบหลักสูตรและเข้าถึงสื่อการเรียนการสอนได้ฟรี หลักสูตร Data Science ที่ดีที่สุดบางหลักสูตรใน Coursera ได้แก่:

ก. ทักษะการวิเคราะห์และการนำเสนอข้อมูล: แนวทาง PwC– ความเชี่ยวชาญพิเศษนี้จะช่วยให้คุณได้รับประสบการณ์ตรงเกี่ยวกับการวิเคราะห์ข้อมูลและความรู้เกี่ยวกับการเปลี่ยนความฉลาดทางธุรกิจให้กลายเป็นผลลัพธ์ในโลกแห่งความเป็นจริง มันจะช่วยให้คุณมีความเข้าใจ การกรอง และการประยุกต์ใช้ข้อมูลที่ดีขึ้น ซึ่งจะช่วยให้คุณแก้ปัญหาได้เร็วยิ่งขึ้น คุณจะเชี่ยวชาญกับ Microsoft Excel, PowerPoint และเครื่องมือวิเคราะห์และสื่อสารข้อมูลทั่วไปอื่นๆ ที่สำคัญที่สุด คุณจะได้เรียนรู้การอ่านข้อมูลและนำเสนอข้อมูล

ข. Big Data, UCSD– ในกรณีที่คุณจำเป็นต้องเข้าใจข้อมูลขนาดใหญ่และจะส่งผลต่อธุรกิจของคุณอย่างไร ความเชี่ยวชาญพิเศษนี้เหมาะสำหรับคุณ คุณจะได้รับประสบการณ์ตรงจากเครื่องมือและระบบที่นักวิทยาศาสตร์และวิศวกรบิ๊กดาต้าใช้ เช่น Hadoop พร้อม MapReduce, Spark, Pig และ Hive คุณจะได้เรียนรู้การทำแบบจำลองการคาดการณ์และใช้ประโยชน์จากการวิเคราะห์กราฟเพื่อแก้ปัญหาแบบจำลอง ในกรณีที่คุณทำงานหนักจนถึงที่สุด คุณจะสามารถดำเนินโครงการ Capstone Project ที่พัฒนาร่วมกับบริษัทซอฟต์แวร์ข้อมูล Splunk ซึ่งคุณจะได้รับอนุญาตให้ใช้แนวคิดพื้นฐานที่คุณได้เรียนรู้

ค. Data Science Specializatin โดย Johns Hopkins University– ความเชี่ยวชาญพิเศษนี้ครอบคลุมแนวคิดและเครื่องมือที่คุณต้องการตลอดเส้นทางข้อมูลทั้งหมด ตั้งแต่การถามคำถามที่ถูกต้องไปจนถึงการอนุมาน ตลอดจนเผยแพร่ผลลัพธ์ในรูปแบบที่เรียบง่ายแต่ทรงพลัง .

ง. SQL สำหรับวิทยาศาสตร์ข้อมูล UC Davis- หลักสูตรนี้ออกแบบมาเพื่อให้คุณมีพื้นฐานในพื้นฐานของ SQL พร้อมกับการทำงานกับข้อมูลที่จะช่วยให้คุณย้ายไปยังความต้องการของฐานข้อมูลของโลกวิทยาศาสตร์ข้อมูล หลักสูตรเริ่มต้นด้วยพื้นฐานและถือว่าไม่มีความรู้เกี่ยวกับ SQL ความซับซ้อนเพิ่มขึ้นอย่างต่อเนื่องและค่อยๆ ทำให้คุณเขียนคิวรีทั้งแบบธรรมดาและแบบซับซ้อนเพื่อช่วยคุณเลือกข้อมูลจากตาราง

3. ดาต้าสต็อค

ลองดู Datastock ในกรณีที่คุณต้องการชุดข้อมูลเว็บที่ครอบคลุม สะอาด และพร้อมใช้งานจากอุตสาหกรรมต่างๆ ทั่วโลก โซลูชันนี้เหมาะอย่างยิ่งสำหรับผู้ที่กำลังมองหาชุดข้อมูลที่พร้อมใช้งานเพื่อทำการวิเคราะห์และรับข้อมูลเชิงลึกและรับทักษะด้านวิทยาศาสตร์ข้อมูล

ข้อดีคือ คุณจะได้รับชุดข้อมูลตัวอย่างฟรีก่อนตัดสินใจซื้อ คุณสามารถทดสอบคุณภาพข้อมูลด้วยตนเองแล้วตัดสินใจ

4. Kaggle

Kaggle เป็นสถานที่สำหรับทำโครงการวิทยาศาสตร์ข้อมูล และเป็นหนึ่งในเว็บไซต์ที่ได้รับความนิยมมากที่สุดในหมู่นักวิทยาศาสตร์ข้อมูลรุ่นใหม่ มันให้ตัวเลือกต่าง ๆ เช่น:

  • ก. เริ่มโครงการใหม่ของคุณเอง
  • ข. สำรวจโครงการที่สร้างโดยผู้อื่น
  • ค. เข้าร่วมการแข่งขันที่ได้รับการสนับสนุนอย่างใดอย่างหนึ่ง

5. ดาต้าเควส

วิธีการลงมือปฏิบัติของพวกเขาจะสอนทักษะทั้งหมดที่จำเป็นสำหรับการเป็นนักวิทยาศาสตร์ข้อมูล นักวิเคราะห์ข้อมูล หรือวิศวกรข้อมูล คุณสามารถเรียนรู้ได้หลายวิธี:

  • ก. การเขียนโค้ด
  • ข. การทำงานกับข้อมูล
  • ค. โครงการก่อสร้าง