علماء البيانات وطرقهم في علم البيانات في عالم اليوم

نشرت: 2022-05-19
عرض جدول المحتويات
أشهر علماء البيانات الذين ساروا على الأرض
آلان تورينج
أليكس كريجفسكي
إيان جودفيلو
سيباستيان ثرون
أندرو نج
والطريق إلى الأمام ...
استخدام البنية التحتية السحابية لمعالجة البيانات
انترنت الأشياء
معالجة لغة طبيعية أكثر قوة
رعاية صحية

علم البيانات هو مجال نما إلى ما هو أبعد من القفزات ، تمامًا مثل البيانات التي يصنعها الإنسان والتي تم إنشاؤها آليًا. لقد أدى إلى زيادة عدد الأفراد من مختلف المجالات مثل الرياضيات والعلوم الحيوية ، مع الأخذ بالبيانات كأداة لحل المشكلات. لقد ذهبت الخوارزميات إلى ما هو أبعد من معالجة الأرقام والنصوص. اليوم ، يقومون بمعالجة أي تنسيق بيانات تقريبًا مثل الصور ومقاطع الفيديو والصوت. وقد أتاح ذلك للشركات الوصول إلى نطاق أوسع من البيانات غير المهيكلة. نمت مصادر البيانات أيضًا ، واليوم تعد بيانات وسائل التواصل الاجتماعي أحد المصادر الرئيسية للعديد من الشركات التي تحاول تصنيف الأفراد. كل هذا على رأس البيانات المنظمة المتزايدة بشكل كبير بالفعل.

أشهر علماء البيانات الذين ساروا على الأرض

كانت هناك اكتشافات هائلة في علم البيانات ويمكننا توقع المزيد في الأيام القادمة. نحن في منعطف حيث تحدث اكتشافات ثورية في علم البيانات ويتم استخدامها لحل مشاكل الحياة الواقعية. سيكون من المفيد إلقاء نظرة على بعض أكبر الاكتشافات والنتائج منذ البداية.

آلان تورينج

ربما يكون آلان تورينج أحد أشهر علماء البيانات الموجودين. يعتبر والد الذكاء الاصطناعي وكذلك علم الكمبيوتر النظري.

لقد أصبح اسمًا مشهورًا من خلال فيلم "The Imitation Game". ومع ذلك ، فإن اختراعه لـ Bombe ، الجهاز الكهروميكانيكي المستخدم لكسر Enigma (جهاز الشفرة الألماني من الحرب العالمية الثانية) لم يكن اكتشافه الوحيد. أدى عمله البحثي إلى إنشاء أول آلة على الإطلاق يمكنها حساب السيناريوهات الرياضية بأكملها. كان النموذج التجريبي للجهاز بسرعة ساعة 1 ميجا هرتز - أسرع كمبيوتر في ذلك الوقت. خلال الحرب الباردة ، تم استخدام أبحاثه حتى لحساب تحركات الطائرات.

كما أنشأ اختبار تورينج - وهو مجموعة من القواعد لتحديد ما إذا كان الكمبيوتر يمكنه التفكير والتصرف كإنسان. استنادًا إلى مدى قرب قدرة الآلة على تقليد الإنسان ، يتم حساب نسبة النجاح. نستخدم العديد من الأشكال المختلفة للاختبار اليوم ، وأكثرها شيوعًا هو اختبار Captcha. Captcha هو اختبار Turing العكسي حيث يحتاج البشر لإثبات أنهم ليسوا آلة.

أليكس كريجفسكي

أثبت عام 2012 أنه حيوي للتعلم العميق (فرع من التعلم الآلي حيث تُستخدم الشبكات العصبية الاصطناعية لاستخراج الميزات من البيانات الضخمة). قام Krizhevsky بتمكين الشبكات العصبية إلى مستويات لم يسبق لها مثيل من قبل. أسس "Alexnet" ، وهي خوارزمية خفضت معدلات الخطأ في مسابقة Imagenet إلى النصف (حوالي 15٪). تحدي ImageNet هو المكان الذي يحتاج فيه الأفراد إلى تصنيف ملايين الكائنات عبر مئات الفئات.

تمكنت الخوارزمية الخاصة به من اكتشاف القطط بدقة تصل إلى 75٪ والوجوه من مقاطع فيديو YouTube بدقة تزيد عن 80٪. يمكن أن تُنسب جميع برامج التعرف على الوجه التي تعمل على أنظمة الأمان ، أو تلك التي تستخدمها لفتح هاتفك اليوم ، إلى هذا الرجل. التصوير الطبي هو مجال آخر حصل على دفعة كبيرة بفضل استخدام الشبكات العصبية لاكتشاف الصور.

إيان جودفيلو

قدم إيان جودفيلو العالم إلى شبكات الخصومة التوليدية (GANs) التي يمكن أن تحتوي على نوعين من النماذج -

  1. يحاول نموذج المولد ، بمجرد تدريبه على البيانات ، إنشاء أمثلة جديدة من نفس النوع.
  2. يحاول نموذج المُميِّز تصنيف المحتوى الحقيقي والمزيف (المُنشأ).

لسوء الحظ ، تم إساءة استخدام نموذج المولد على نطاق واسع اليوم فيما يعرف باسم DeepFakes. لقد نشر الكثيرون خطابات لا تصدق لأشخاص مشهورين على الإنترنت - والتي تم العثور عليها جميعًا على أنها DeepFakes لاحقًا. لقد فتحت علبة من الديدان حيث يمكن لأي شخص تقريبًا لديه جهاز كمبيوتر محمول واتصال بالإنترنت إنشاء مقطع فيديو جديد تمامًا من فيديو موجود وجعل المتحدث يقول أي شيء على الإطلاق. يتعلم الذكاء الاصطناعي أثناء اللعب من مقطع فيديو موجود ومن ثم يمكنه تقليد تعابير الوجه والصوت وأسلوب التحدث تلقائيًا.

لقد تجاوزت الخوارزمية حيث لم يسبق لأي كود آلة آخر فعل ذلك - الإبداع البشري. يمكنه إنشاء لوحات وإنشاء وجوه (غير موجودة). وقد بيعت اللوحات التي رسمتها شبكات GAN بمبلغ يصل إلى 400 ألف دولار في المزادات. ابتكرت شركات مثل Adobe تقنيات جديدة لاكتشاف المحتوى المزيف لأن الموقف الآن يخرج عن السيطرة. لم تؤثر شبكات GAN على المشهد الحالي للذكاء الاصطناعي فحسب ، بل من المحتمل أن تسبب المزيد من الاكتشافات الراديكالية في السنوات المقبلة.

سيباستيان ثرون

بينما لا بد أن معظمكم قد سمع عن Tesla ، الشركة الأولى التي جعلت السيارات ذاتية القيادة متاحة حقًا للجماهير ، لا بد أن القليل منهم قد سمع باسم Sebastian Thrun. اشتهر Thrun بأبي السيارات ذاتية القيادة ، وفاز بمسابقة البنتاغون للمركبات ذاتية القيادة في 2005. كما أسس وأدار مشروع Google Driverless Car قبل مغادرته لبدء Udacity وجعل التعليم في متناول الجماهير. ومع ذلك ، فقد بدأت مهمته في مجال الروبوتات قبل وقت طويل ، عندما أنشأ في عام 1997 أول مرشد سياحي آلي لمتحف Deutsches Museum Bonn. وقد ارتبط أيضًا بالعديد من مختبرات الذكاء الاصطناعي الرائدة ، مثل تلك الموجودة في CMU و Stanford.

أندرو نج

كانت هناك مساهمة هائلة من كل من مجتمع المصادر المفتوحة وكذلك من علماء البيانات مثل Andrew Ng (الشريك المؤسس لـ Coursera) لجعل علم البيانات في متناول الجماهير. جعلت Google TensorFlow مجانيًا للاستخدام في عام 2015 ، وتبعه Facebook حذوه مع PyTorch في عام 2016. المكتبات المخصصة بلغات مثل Python (مثل Scikit Learn و Pandas) جعلت من السهل جدًا على أي شخص البدء في غضون ساعات).

ساعدت دورات مثل تلك التي قام بها أندرو الأفراد الذين ليسوا من خلفية رياضية في التعرف على كيفية عمل خوارزميات الذكاء الاصطناعي. هناك أيضًا مواقع ويب مثل Kaggle و GitHub جعلت مشاكل الذكاء الاصطناعي ومجموعات البيانات والحلول سهلة الوصول لأي شخص على الإنترنت.

والطريق إلى الأمام ...

لقد ناقشنا للتو بعضًا من أكبر المشاريع البحثية والعلماء والمعلمين الذين ساهموا في مجال علوم البيانات ، ولكن ماذا بعد ذلك؟ ما هي الأدوات التي يجب أن تلعب دورًا أكبر؟ ما هي المشاكل التي يركز عليها مجتمع علوم البيانات بعد ذلك؟ كيف تحاول الشركات استخدام كل هذه الأبحاث والاكتشافات لدعم عملية صنع القرار التي تعتمد على البيانات؟ لمعرفة الإجابات على هذه الأسئلة ، يتعين على المرء أن يلقي نظرة على أحدث الاتجاهات في هذا المجال -

استخدام البنية التحتية السحابية لمعالجة البيانات

نما جمع البيانات مع مرور كل عام. أضافت الشركات مصادر جديدة ، مثل مصادر الجهات الخارجية أو بيانات الوسائط الاجتماعية. ومع ذلك ، يكمن التحدي في تنظيف مجموعات البيانات الضخمة هذه وتطبيعها ومعالجتها وتنسيقها. نظرًا لأن العديد من هذه المصادر تنتج بيانات شبه أو غير منظمة ، فإن معالجة هذه تتطلب موارد أكثر. يمكن أن يكون تشغيل الخوارزميات على بيانات الاختبار تحديًا كبيرًا على الأجهزة المحلية (أجهزة الكمبيوتر المحمولة).

هذا هو السبب في أن مزودي الخدمات السحابية مثل AWS شهدوا نمو أعمالهم لتصل إلى مليارات الدولارات. توفر الخدمات السحابية مثل AWS S3 خدمات رخيصة للغاية لحفظ البيانات. هذه أيضًا بعض من أولى الخدمات السحابية التي ظهرت إلى حيز الوجود. تخزين البيانات هو مجرد البداية ، وقد وجدت الخدمات الأحدث التي تتعامل مع المعالجة والتنسيق أيضًا استخدامًا أكبر. اليوم ، أصبح مهندسو البيانات الذين يمكنهم حساب وإنشاء بنية أساسية فعالة للأنظمة التي تعتمد على البيانات أكثر طلبًا مقارنة بعلماء البيانات.

كل هذا غيّر كيفية استخدام الشركات للبيانات الضخمة والخدمات السحابية. يتم تقديم البيانات نفسها كخدمة بواسطة موفري DaaS (البيانات كخدمة) ، مثل PromptCloud. تسمح هذه الخدمات للشركات بالوصول إلى بيانات الجهات الخارجية أو بيانات المنافسين من خلال تحديد مواقع الويب التي يحتاجون منها إلى كشط البيانات ونقاط البيانات المطلوبة.

انترنت الأشياء

على الرغم من أن إنترنت الأشياء ليس جديدًا ، إلا أن المزيد والمزيد من الأجهزة المادية تتحدث مع بعضها البعض الآن. تم توصيل المزيد من الأجهزة بالسحابة أكثر من أي وقت مضى ، وهم يجمعون ويشاركون جميع البيانات التي تم جمعها عبر أجهزة الاستشعار الخاصة بهم.

هذا يتيح حلول العصر الجديد مثل التشخيص عن بعد للآلات. يمكن أن تستخدم الحلول البرمجية بيانات المستشعر لتمنحك عمرًا تقريبيًا للأجزاء والملحقات المختلفة. تساعد البيانات في إعلام الأفراد عندما يتوقف النظام عن العمل. نظرًا لأنه يتم جمع المزيد من البيانات ويعمل التعلم العميق على سحره ، فسنستخدم المزيد من البيانات لعمل تنبؤات أفضل تشمل الأجهزة المتصلة بإنترنت الأشياء. من المحتمل أيضًا أن نشهد استخدامًا أعلى لإنترنت الأشياء على المستوى الصناعي ، بصرف النظر عن الروبوتات في المستودعات التي ازدهرت خلال السنوات القليلة الماضية.

معالجة لغة طبيعية أكثر قوة

مجموعة فرعية من الذكاء الاصطناعي ، البرمجة اللغوية العصبية يتعامل مع اللغة البشرية. هذا هو ما يمد سيري أو أليكسا. يتعامل مع كيفية استخدام اللغات في الوقت الفعلي بدلاً من التركيز فقط على التركيب النحوي. من المتوقع أن تستخدم الشركات أحدث النتائج في البرمجة اللغوية العصبية في المنتجات الأحدث بحيث يمكن للأفراد التفاعل مع الآلات والبرامج بسهولة أكبر. نحن لسنا بعيدين عن اليوم الذي تتحدث فيه إلى جهاز الكمبيوتر الخاص بك وسيقوم بأداء المهام نيابة عنك.

رعاية صحية

لقد أثر التعلم الآلي وعلوم البيانات بشكل كبير على العلوم الطبية. لقد طبقناها لحل مشاكل مثل اكتشاف مرض السكري ، وتحديد الخلايا السرطانية ، والأشعة ، وعلم الأمراض. أظهرت دراسة أجرتها جامعة ستانفورد أن الذكاء الاصطناعي يمكنه تحديد سرطان الجلد تمامًا مثل الأطباء.

سيشهد العقد القادم الكثير من الأعمال البحثية والأوراق قيد الاستخدام العملي. يمكننا أن نتوقع اختراقات متعددة-

  • تحديد الأمراض والتنبؤ بها حتى قبل حدوثها.
  • يمكن للآلات معالجة الصور الطبية بكفاءة أكبر من البشر.
  • توقع حالات تفشي مثل COVID-19.
  • تسجل Smarter Health وتتبع من خلال وسائل متعددة مثل الساعات الذكية.

المسافة التي قطعناها ضخمة! يمكننا إجراء عمليات حسابية تحتاج إلى آلات تملأ غرفة كاملة ، على شريحة بحجم أظافر القدم اليوم. ساهم التقدم في تصنيع الرقائق ، بالإضافة إلى سرعة الإنترنت ونقل البيانات الأسرع ، بشكل مباشر في نمو علم البيانات وتطبيقاته الواقعية. يجب أن يعتمد مستقبل علم البيانات على قطاعات ومؤسسات متعددة ، وسيخلق علم البيانات الديمقراطي مجالًا مستويًا للجميع.