مهارات علوم البيانات الأساسية للمتحمسين
نشرت: 2018-06-26البيانات تنمو حرفيا بمعدل أسي ، بحيث وصلت إلى بيتابايت! هل تصدق أن تسعين بالمائة من بيانات العالم قد تم إنشاؤها في العامين الماضيين فقط. مع هذا الحجم ، كانت إدارة البيانات مسألة صعبة. لا عجب أن مهارات علوم البيانات الأساسية قد احتلت المقعد الأمامي.
الخمسة مقابل البيانات الضخمة
غالبًا ما يتم وصف البيانات الضخمة باستخدام خمسة مقابل. وهي الحجم والسرعة والتنوع والصدق والقيمة.
- 1. يشير حجم البيانات إلى الكميات الهائلة من البيانات التي يتم إنشاؤها كل ثانية ، من ملايين الأجهزة المحمولة المستخدمة هذه الأيام. كل رسائل البريد الإلكتروني ورسائل تويتر والصور ومقاطع الفيديو وبيانات الاستشعار والمزيد التي ننتجها هي بيانات ذات قيمة عالية للعديد من الشركات.
- 2. تشير "سرعة البيانات" إلى السرعة التي يتم بها إنشاء البيانات الجديدة ، والسرعة التي يمكن بها نقلها من مكان إلى آخر لزيادة الربحية.
- 3. تنوع البيانات هو ما يمكن أن نتعامل معه جميعًا. البيانات ، بالنسبة لمعظم المؤسسات ، كانت تعني قواعد البيانات وأوراق Excel ، في الماضي. ومع ذلك ، فإن بيانات اليوم تعني الكثير. ثمانون في المائة من بيانات العالم غير منظمة ، فكر في الصور ومقاطع الفيديو وتحديثات تويتر التي تجريها.
- 4. تشير مصداقية البيانات إلى مستوى مصداقية البيانات. مع نمو البيانات إلى أحجام كبيرة ، من المهم أن نحاول الحفاظ على البيانات نظيفة قدر الإمكان لأن البيانات القذرة هي فيروس يمكن أن يلحق بك الأذى بشكل لا مثيل له.
- 5. قيمة البيانات هي القيمة الحقيقية لبياناتك. أنت تجمع الكثير من البيانات وتقرر العمل عليها. كل شيء جيد وجيد. ولكن ما هي القيمة التي تضيفها البيانات لشركتك؟ ما الفائدة التي تجنيها من الاستثمار في البيانات وما هو المهم؟
لذا ، في حالة استغراقك ضجيج البيانات الضخمة وعلوم البيانات ، أقترح عليك إلقاء نظرة على الموارد الخمسة المدرجة أدناه.
1. Datacamp
Datacamp هو الأفضل للأشخاص الذين لديهم خبرة قليلة أو معدومة في Python و R. إنه يبدأ بالأساسيات وله نهج متدرج ، حيث يتم إعطاؤك مشكلة تلو الأخرى. إنها هبة من السماء للمبتدئين وبأسعار في نطاق الميزانية.
ابحث عن الخصومات الهائلة التي يقدمها Datacamp ، في حال كنت ترغب في الاشتراك لمدة عام والوصول إلى المشروع المتميز والميزات. يحتوي على العديد من المسارات التي يمكنك إتقانها ، والتي تتكون من حوالي 20-30 دورة تدريبية لكل منها. تشمل المسارات الشعبية:
- أ. عالم البيانات مع بايثون
- ب. التحليل الكمي مع R.
- ج. معالجة البيانات ببايثون
- د. استيراد البيانات وتنظيفها مع R.
- ه. تصور البيانات مع R.
إذا كان لديك وقت أقل ، يمكنك أيضًا إجراء دورات أصغر مثل:

- أ. مقدمة إلى Python لعلوم البيانات
- ب. مقدمة إلى R
- ج. ربط البيانات في PostgreSQL
- د. متوسط R
2. كورسيرا
Coursera هي واحدة من أفضل المنصات لتعلم أي شيء من علم البيانات إلى التاريخ العسكري وقد جربته بنفسي. يمكنك اختيار تدقيق الدورات والحصول على مواد الدورة مجانًا. بعض من أفضل دورات علوم البيانات على كورسيرا هي:
أ. مهارات تحليل البيانات والعرض التقديمي: نهج برايس ووترهاوس كوبرز - سيساعدك هذا التخصص في الحصول على خبرة عملية في تحليل البيانات والمعرفة حول تحويل ذكاء الأعمال إلى نتائج واقعية. سوف يمنحك فهمًا أفضل للبيانات وتصفيتها وتطبيقها ، وهذا بدوره سيساعدك على حل المشكلات بشكل أسرع. سوف تصبح بارعًا في استخدام Microsoft Excel و PowerPoint وأدوات تحليل البيانات الشائعة الأخرى وأدوات الاتصال. والأهم من ذلك أنك ستتعلم قراءة البيانات وتقديمها.
ب. Big Data، UCSD - إذا كنت بحاجة إلى فهم البيانات الضخمة وكيف ستؤثر على عملك ، فهذا التخصص مناسب لك. ستتمكن من الحصول على خبرة عملية باستخدام الأدوات والأنظمة التي يستخدمها علماء البيانات الضخمة والمهندسون مثل Hadoop مع MapReduce و Spark و Pig و Hive. سوف تتعلم أداء النمذجة التنبؤية والاستفادة من تحليلات الرسم البياني لنمذجة المشكلات. في حالة قيامك بالكد حتى النهاية ، ستتمكن من إكمال مشروع Capstone ، الذي تم تطويره بالشراكة مع شركة برامج البيانات Splunk ، حيث يُسمح لك بتطبيق المفاهيم الأساسية التي تعلمتها.
ج. تخصص علوم البيانات من جامعة جونز هوبكنز - يغطي هذا التخصص المفاهيم والأدوات التي ستحتاج إليها خلال مسار البيانات بالكامل ، بدءًا من طرح المجموعة الصحيحة من الأسئلة إلى إجراء الاستدلالات وكذلك نشر النتائج بتنسيق بسيط ولكنه قوي. .
د. SQL لعلوم البيانات ، جامعة كاليفورنيا في ديفيس- تم تصميم هذه الدورة التدريبية لتمنحك دليلًا تمهيديًا في أساسيات SQL جنبًا إلى جنب مع العمل مع البيانات التي ستساعدك على الانتقال إلى احتياجات قاعدة البيانات الخاصة بعالم علوم البيانات. تبدأ الدورة بالأساسيات وتفترض عدم معرفة بـ SQL. يزداد التعقيد بشكل مطرد وسيجعلك تدريجيًا تكتب استعلامات بسيطة ومعقدة لمساعدتك في تحديد البيانات من الجداول.
3. Datastock
تحقق من Datastock في حال كنت بحاجة إلى مجموعات بيانات ويب شاملة ونظيفة وجاهزة للاستخدام من مختلف الصناعات في جميع أنحاء العالم. الحل مثالي لأولئك الذين يبحثون عن مجموعات بيانات جاهزة للاستخدام لإجراء التحليل واكتساب الأفكار واكتساب مهارات علوم البيانات.
ما هو رائع هو أنك تحصل على عينة مجموعة بيانات مجانية قبل إجراء عملية الشراء. يمكنك اختبار جودة البيانات بنفسك ثم اتخاذ القرار.
4. Kaggle
Kaggle هو المكان المناسب للقيام بمشاريع علوم البيانات ، وهو أحد أشهر مواقع الويب بين علماء البيانات الناشئين. يوفر خيارات مختلفة مثل:
- أ. بدء مشروعك الجديد
- ب. استكشاف المشاريع التي أنشأها الآخرون
- ج. الانضمام إلى إحدى المسابقات التي ترعاها
5. Dataquest
يعلمك أسلوبهم العملي جميع المهارات التي تحتاجها لتصبح عالم بيانات أو محلل بيانات أو مهندس بيانات. يمكنك التعلم بعدة طرق:
- أ. كود الكتابة
- ب. العمل مع البيانات
- ج. مشاريع البناء
