تعزيز قيمة علماء البيانات في النظام البيئي للبيانات الضخمة

نشرت: 2016-10-15
عرض جدول المحتويات
يدوي
الآلي
كيفية إضافة المزيد إلى القيمة التي يقدمها علماء البيانات

لا يُعرف مدى الوصول والتأثير الهائل للبيانات الضخمة على جميع قطاعات الصناعة تقريبًا. باستخدام البيانات الضخمة ، يتم تحليل سلسلة الاتصالات والتعليقات والعلامات التجارية التي تبدو ضخمة ومعقدة على مستوى دقيق. الغرض من هذا التمرين هو الكشف عن الرؤى التي ربما ظلت حتى الآن مخفية عن آراء صانعي القرار في الشركة. خذ حالة أمريكان إكسبريس. أرادت شركة البطاقات العملاقة تقديم أكثر من مجرد مؤشرات لاحقة للمضي قدماً في خطط النمو الهائلة. أدى ذلك إلى قيام AmEx بالاستثمار في بناء نماذج تنبؤية معقدة لكنها قوية تستوعب ما يصل إلى 115 متغيرًا . الغرض من التمرين؟ لإلقاء نظرة على طرق تعزيز ولاء العملاء للعلامة التجارية وتقليل اضطراب العملاء بمساعدة البيانات الضخمة.

علم البيانات

هذا التحليل التنبئي هو أحد أشكال علم البيانات - وهو المجال الذي يساعد على استخلاص المعرفة أو الرؤى من البيانات الضخمة (الهيكلية وغير المنظمة). تتضمن بعض التطبيقات الأخرى لعلوم البيانات التحليل الإحصائي ، واستخراج البيانات ، وهندسة البيانات ، ونماذج الاحتمالات ، والتصورات ، والتعلم الآلي. يعد علم البيانات جزءًا من المجال الأكبر للذكاء التنافسي ، والذي يتضمن أيضًا تحليل البيانات واستخراج البيانات.

نظرة على دفع إنتاجية علماء البيانات من الجيل التالي

قام جيمس كوبيلوس ، مبشر البيانات الضخمة لشركة IBM ، بإنتاج مقال مثير للاهتمام سلط الضوء على الطرق المختلفة التي يمكن من خلالها تحسين إنتاجية الجيل القادم من علماء البيانات. يمكن أن يؤثر هذا بدوره على ثروات الاقتصاد العالمي والتمويل والمجتمع.

لقد أقر بالدور الحاسم للمهمة الذي يلعبه علماء البيانات في توفير قيمة لبيئة الأعمال التي تعمل دائمًا. تمتد قيمتها إلى تكامل مختلف للحلول القابلة للتكرار للمساعدة في تحليل البيانات وإنشاء رؤى ذات مغزى لمساعدة أصحاب المصلحة في عملية صنع القرار الخاصة بهم.

البيانات الكبيرة

لماذا يُعد تعزيز إنتاجية علماء البيانات أمرًا ضروريًا

يؤدي علماء البيانات مجموعة من الأدوار والمسؤوليات المتنوعة داخل النظام البيئي للبيانات الضخمة بأكمله. وتشمل هذه المهام مثل -

  1. يدوي

  • تصميم وتطوير النماذج الإحصائية
  • تحليل أداء هذه النماذج
  • التحقق من النماذج ببيانات العالم الحقيقي
  • تنفيذ المهمة الصعبة المتمثلة في نقل الرؤى بطريقة يمكن للخبراء غير المعنيين بالبيانات (أصحاب المصلحة وصناع القرار) فهمها
  1. الآلي

  • البدء والعصف الذهني والبحث عن أعمال العميل وجمع المعلومات الاستخبارية
  • اكتشاف البيانات
  • تنميط البيانات
  • أخذ العينات وتنظيم البيانات

كما هو واضح ، تتطلب هذه المهام مجموعة من خبرات رأس المال البشري التي لا يمكن العثور عليها في فرد واحد. يجب بناء فريق من الأشخاص الخبراء في مجالات مختلفة. والأهم من ذلك ، يجب أن تتم مواءمتها بحيث يتم تحقيق هدف العمل المتمثل في وجود فريق من علماء البيانات بشكل ودي وبدون أي سياسة. ويمكن تحقيق ذلك من خلال وجود مجموعة قوية من العمليات والبروتوكولات التي يجب أن يتبعها كل فرد داخل الفريق.

ومع ذلك ، فإن إعداد هذه البروتوكولات وإنفاذها لا يعني بالضرورة تراجعًا في إنتاجية علماء البيانات. يلقي جيمس نظرة على أمثلة الحياة الواقعية حيث تم إعداد عمليات مختلفة لضمان الإنتاجية المثلى لعلماء البيانات في بيئات الفريق المعقدة. أحد الأمثلة التي ذكرها على وجه التحديد في هذا السياق هو بن لوريكا من أورايلي. تسعى هذه المقالة إلى تقديم المزايا التالية في الإنتاجية لعلماء البيانات:

  • أحكام API الجاهزة التي يمكن إتاحتها لمعالجة مختلف الخطوات الرئيسية والفرعية لتحليل البيانات ومجال التصور. يمكن أن يساعد تبسيط العملية من البداية إلى النهاية في معالجة التعلم الآلي في كل مرحلة رئيسية من المشروع على تحسين تقليل الوقت والتكلفة بشكل كبير. وهذا التخفيض هو أكثر بكثير من التكلفة التي ينطوي عليها إدخال البرنامج في الأنظمة الحالية لمؤسستك.
  • تلعب أنواع البيانات مثل الوسائط المتعددة (الصوت والفيديو والمحتوى) دورًا محوريًا في تدفق الوسائط والحساب المعرفي. باستخدام التعلم الآلي الآلي ، يمكن استيعاب هذه الأنواع من البيانات وتحليلها بسهولة. يقترح بن استخدام نماذج خطوط الأنابيب للتحدث والرؤية الحاسوبية ومحمل البيانات لأنواع أخرى من البيانات.
  • يمكن أن تساعد التطبيقات في التعقب السريع للتدريب والاستخدام والكمال للنماذج الإحصائية والتنبؤية. تتضمن أمثلة خوارزميات التعلم الآلي القابلة للتطوير أوقات التشغيل المستندة إلى Spark .
  • يمكن أيضًا تحسين إنتاجية علماء البيانات من خلال توسيع خطوط أنابيب المعالجة لمشاريع التعلم الآلي متعددة الوظائف بذكاء. تتضمن أمثلة هذه المكونات دمج وتحميل المكتبات والمحسنات. تتضمن الأمثلة الأخرى لهذه المكونات مجموعة متنوعة من برامج تحميل البيانات والمميزات ومخصصات الذاكرة.

يتحدث أيضًا عن تصميم حدود الخطأ وتحديدها بوضوح وإعدادها للمساعدة في التحقق من فعالية مشاريع التعلم الآلي. بمساعدة هذا الجهد ، يمكن قياس الأداء الفعلي مقابل معايير محددة مسبقًا. بالإضافة إلى ذلك ، يمكن أن يساعد في ضبط النموذج إذا كان هناك تحويل كبير للأداء الفعلي للنموذج من النتائج المتوقعة.

هذا هو أحد الأمثلة على الجهود الجارية في جميع أنحاء العالم في مؤسسات مختلفة لزيادة إنتاجية علماء البيانات. من خلال هذه الجهود ، يؤدون أدوارهم في بيئات شديدة التعقيد تمس العديد من الأفراد والعمليات والبروتوكولات والتوقعات.

كيفية إضافة المزيد إلى القيمة التي يقدمها علماء البيانات

يمضي جيمس بعد ذلك في تسليط الضوء على الطرق التي يمكن لعلماء البيانات من خلالها حشد التفوق في وظائفهم والقيام بعمل جيد بشكل ملحوظ مع مجال تحليل البيانات والتصور. هناك جانبان - أحدهما هو التكنولوجيا نفسها (في شكل حلول مثل Hadoop و R و Python و Spark) والآخر هو فريق الخبراء الذين يشكلون نقاط اتصال لعلماء البيانات (مطورو تطبيقات البيانات ، والمصممين ، ومهندسي البيانات ، وكبار ، وخبراء ETL). يجب أن يعمل كلاهما جنبًا إلى جنب لتوفير بيئة تعزز إنتاجية أعلى لعلماء البيانات. أدرج جيمس عدة طرق لتحقيق ذلك.

  1. سهولة العمل مع مجموعات بيانات متعددة - خذ حالة المركز الطبي. يمكنه الاحتفاظ بملايين السجلات وتخزينها لآلاف المرضى. قد تشمل هذه البيانات المنظمة وغير المنظمة (صور علم الأمراض ، ملاحظات الطبيب ، إلخ). سيكون تنفيذ البيانات الضخمة النموذجي هو إنشاء بحيرة بيانات Hadoop وتسخير البيانات لمزيد من الاستخدام. مثال آخر يمكن أن يكون منشورات وسائل التواصل الاجتماعي والتعليقات التي يتم أخذها وتخزينها في مجموعات البيانات. يجب أن يكون عالم البيانات قادرًا على الحصول على البيانات من مجموعات البيانات المتنوعة بسهولة. تتضمن بعض الأمثلة - بحيرات البيانات ومجموعات البيانات والخدمات السحابية.
  2. Excel في مسؤوليات العمل - تحليلات البيانات ، والنمذجة التنبؤية ، والتعلم الآلي ، واستخراج البيانات ، والتصور. هذه ليست سوى بعض الوظائف العديدة التي يشارك فيها عالم البيانات. وبطبيعة الحال ، سيتعين عليه / عليها القيام بعدد كبير من الأنشطة لتنفيذ المهمة. قد يشمل ذلك اكتشافًا واحدًا أو أكثر للبيانات ، وتجميع البيانات المتشابهة ، وترجيح البيانات لمطابقة الكون ، وإعداد النماذج وتنظيمها لتوليد رؤى أعمق ، وصياغة فرضية واختبارها والتحقق منها. سواء كانت بيانات منظمة بسيطة أو بيانات أكثر تعقيدًا متعددة الهياكل ، تحتاج بيئة الإنتاجية إلى عالم البيانات للتميز في مسؤوليات وظيفية مختلفة.
  3. الخبرة العملية - وفر لعلماء البيانات كل مجال لتنفيذ معرفتهم العملية بتطبيقات تحليلات البيانات الضخمة. قد تشمل هذه R و Python و Spark و Hadoop.
  4. توسيع تنوعها - كما ذكرنا سابقًا ، يتعين على علماء البيانات التفاعل مع العديد من الخبراء في أدوارهم ومسؤولياتهم اليومية. ويشمل ذلك مطوري تطبيقات البيانات ، والمصممين ، ومهندسي البيانات ، والإدارة العليا ، وخبراء ETL. تحتاج نقاط الاتصال إلى مشاركة المعرفة حول المكتبات والقوالب التي يمكن أن تساعد في تسهيل العمل وفهم مواضيع مثل التعلم الآلي والاستكشاف الإحصائي والشبكات العصبية وتخزين البيانات وتحويل البيانات والحصول على البيانات.
  5. مراقبة التقدم - يوفر عالم البيانات الكثير من الثقل لابتكار وتصميم وتنفيذ عمليات التعامل مع مجموعات البيانات واسعة النطاق لاستخدامها في النمذجة والبحث الإحصائي واستخراج البيانات. يقوم / تقوم أيضًا بالعديد من الوظائف الإضافية مثل تطوير حالة العمل ، والتفاعل مع موردي الطرف الثالث ، وإدارة دورة حياة مشروع تحليل البيانات بالكامل ، مما يحافظ على توافق الفريق جيدًا حتى النهاية ، والتفاعل مع أصحاب المصلحة من خلال تحديثات منتظمة حول التقدم من المشروع. في ظل بيئة مواتية ، يجب أن يكون عالم البيانات قادرًا على تتبع وفرض والتحقق من الأداء الصحيح للمكونات المختلفة التي تسمح له / لها بأداء الوظيفة بشكل صحيح. تشمل هذه المكونات المكتبات والنمذجة والتكامل التقني والبيانات والخوارزميات والبيانات الوصفية.

باستخدام هذه المؤشرات المفيدة ، يبرز جيمس الطرق التي يمكن من خلالها تعزيز قيمة علماء البيانات في النظام البيئي للبيانات الضخمة.

هل تخطط للحصول على بيانات من الويب؟ نحن هنا للمساعدة. دعنا نعرف عن متطلباتك.