ما يحدث بين استخراج البيانات والتصور
نشرت: 2017-08-08أظهرت البيانات الضخمة نموًا هائلاً على مدار العقد الماضي ، ويستمر تطبيقها على نطاق واسع من قبل الشركات كمحفز للنمو في تحقيق نتائج إيجابية. حجم البيانات هائل وحجم وسرعة وتنوع استدعاءات البيانات من أجل معالجة أكثر كفاءة لجعلها جاهزة للماكينة. على الرغم من وجود العديد من الطرق لاستخراج البيانات مثل واجهات برمجة التطبيقات العامة ، وخدمات كشط الويب المخصصة ، ومصادر البيانات الداخلية ، وما إلى ذلك ، ستظل هناك دائمًا الحاجة إلى القيام ببعض المعالجة المسبقة لجعل البيانات مناسبة تمامًا لتطبيقات الأعمال.

تتضمن المعالجة المسبقة للبيانات مجموعة من المهام الرئيسية التي تتطلب بنية تحتية حسابية واسعة وهذا بدوره سيفسح المجال لتحقيق نتائج أفضل من استراتيجية البيانات الضخمة الخاصة بك. علاوة على ذلك ، فإن نظافة البيانات ستحدد موثوقية تحليلك ويجب إعطاء هذا أولوية عالية أثناء التخطيط لاستراتيجية البيانات الخاصة بك.
تقنيات المعالجة المسبقة للبيانات
نظرًا لأن البيانات المستخرجة تميل إلى أن تكون غير كاملة مع التكرار والعيوب ، فإن تقنيات المعالجة المسبقة للبيانات هي ضرورة مطلقة. كلما كبرت مجموعات البيانات ، زادت الحاجة إلى آليات أكثر تعقيدًا لمعالجتها قبل التحليل والتصور . تقوم المعالجة المسبقة بإعداد البيانات وتجعل التحليل ممكنًا مع تحسين فعالية النتائج. فيما يلي بعض الخطوات الحاسمة المتضمنة في المعالجة المسبقة للبيانات.
تنقية البيانات
عادةً ما يكون تنظيف البيانات هو الخطوة الأولى في معالجة البيانات ويتم ذلك لإزالة العناصر غير المرغوب فيها وكذلك لتقليل حجم مجموعات البيانات ، مما يسهل على الخوارزميات تحليلها. يتم تنقية البيانات عادةً باستخدام تقنيات تقليل المثيل.
يساعد تقليل المثيلات على تقليل حجم مجموعة البيانات دون المساس بجودة الرؤى التي يمكن استخلاصها من البيانات. يقوم بإزالة المثيلات وإنشاء مثيلات جديدة لجعل مجموعة البيانات مضغوطة. هناك نوعان من الخوارزميات الرئيسية لتقليل المثيل:
اختيار المثيل : يُستخدم تحديد المثيل لتحديد أفضل الأمثلة من مجموعة بيانات كبيرة جدًا بها العديد من الحالات من أجل تنظيمها كمدخلات لنظام التحليلات. يهدف إلى تحديد مجموعة فرعية من البيانات التي يمكن أن تكون بمثابة بديل لمجموعة البيانات الأصلية مع تحقيق الهدف تمامًا. سيؤدي أيضًا إلى إزالة الحالات الزائدة والضوضاء.
إنشاء المثيل: تتضمن طرق إنشاء المثيل استبدال البيانات الأصلية ببيانات تم إنشاؤها بشكل مصطنع من أجل ملء المناطق في مجال المشكلة مع عدم وجود أمثلة تمثيلية في البيانات الرئيسية. يتمثل الأسلوب الشائع في إعادة تسمية الأمثلة التي يبدو أنها تنتمي إلى تسميات فئة خاطئة. وبالتالي ، فإن إنشاء المثيل يجعل البيانات نظيفة وجاهزة لخوارزمية التحليل.
الأدوات التي يمكنك استخدامها: Drake و DataWrangler و OpenRefine
تطبيع البيانات
يعمل التطبيع على تحسين تكامل البيانات عن طريق ضبط التوزيعات. بكلمات بسيطة ، يتم تطبيع كل صف ليكون له معيار وحدة. يتم تحديد المعيار بواسطة المعلمة p التي تشير إلى المعيار p المستخدم. بعض الطرق الشائعة هي:

StandardScaler: إجراء التطبيع بحيث تتبع كل ميزة التوزيع الطبيعي.
MinMaxScaler: يستخدم معلمتين لتطبيع كل ميزة إلى نطاق معين - الحد العلوي والسفلي.
ElementwiseProduct: يستخدم مُضاعِفًا عدديًا لتوسيع نطاق كل ميزة.
الأدوات التي يمكنك استخدامها: محلل الجدول ، BDNA
تحويل البيانات
إذا كانت مجموعة البيانات كبيرة جدًا في عدد الحالات أو متغيرات التوقع ، تظهر مشكلة الأبعاد. هذه مشكلة حاسمة ستعيق عمل معظم خوارزميات استخراج البيانات وتزيد من تكلفة المعالجة. هناك طريقتان شائعتان لتحويل البيانات عن طريق تقليل الأبعاد - اختيار الميزة وتحويل الفضاء.
اختيار الميزة: إنها عملية اكتشاف وإزالة أكبر قدر ممكن من المعلومات غير الضرورية. يمكن استخدام FS لتقليل احتمالية الارتباطات العرضية في خوارزميات التعلم التي يمكن أن تقلل من قدرات التعميم الخاصة بها. ستعمل FS أيضًا على قطع مساحة البحث التي تشغلها الميزات ، مما يجعل عملية التعلم والتعدين أسرع. الهدف النهائي هو اشتقاق مجموعة فرعية من الميزات من المشكلة الأصلية التي تصفها جيدًا.
تحويلات الفضاء: تعمل تحويلات الفضاء بشكل مشابه لاختيار المعالم. ومع ذلك ، بدلاً من تحديد الميزات القيمة ، ستنشئ تقنية تحويل المساحة مجموعة جديدة جديدة من الميزات من خلال الجمع بين الأصول. يمكن إجراء هذا النوع من التوليفة وفقًا لمعايير معينة. تهدف تقنيات تحويل الفضاء في النهاية إلى استغلال العلاقات غير الخطية بين المتغيرات.
الأدوات التي يمكنك استخدامها: Talend ، Pentaho
تضمين القيم المفقودة
أحد الافتراضات الشائعة مع البيانات الضخمة هو أن مجموعة البيانات كاملة. في الواقع ، تحتوي معظم مجموعات البيانات على قيم مفقودة غالبًا ما يتم تجاهلها. القيم المفقودة هي بيانات لم يتم استخراجها أو تخزينها بسبب قيود الميزانية أو عملية أخذ عينات خاطئة أو قيود أخرى في عملية استخراج البيانات. القيم المفقودة ليست شيئًا يجب تجاهله لأنه قد يؤدي إلى تحريف نتائجك.
يعد إصلاح مشكلة القيم المفقودة أمرًا صعبًا. يمكن أن يؤدي التعامل معها دون عناية فائقة إلى تعقيدات في معالجة البيانات واستنتاجات خاطئة.
هناك بعض الأساليب الفعالة نسبيًا لمعالجة مشكلة القيم المفقودة. يعد تجاهل الحالات التي قد تحتوي على قيم مفقودة هو الشيء الشائع ولكنه ليس فعالًا للغاية لأنه قد يؤدي إلى التحيز في التحليلات الإحصائية. بصرف النظر عن هذا ، فإن تجاهل المعلومات الهامة ليس فكرة جيدة. تتمثل الطريقة الأفضل والأكثر فاعلية في استخدام إجراءات الاحتمالية القصوى لنمذجة وظائف الاحتمال للبيانات مع مراعاة العوامل التي يمكن أن تسببت في فقدان البيانات. تعتبر تقنيات التعلم الآلي حتى الآن الحل الأكثر فعالية لمشكلة القيم المفقودة.
تحديد الضوضاء
جمع البيانات ليس دائمًا مثاليًا ، لكن خوارزميات التنقيب في البيانات تفترض دائمًا أنه كذلك. يمكن أن تؤثر البيانات المشوشة بشكل خطير على جودة النتائج ، ومعالجة هذه المشكلة أمر بالغ الأهمية. يمكن أن تؤثر الضوضاء على ميزات الإدخال أو الإخراج أو كليهما في معظم الحالات. يُطلق على الضوضاء الموجودة في الإدخال اسم ضوضاء السمة بينما إذا تسللت الضوضاء إلى المخرجات ، فيتم الإشارة إليها على أنها ضوضاء الطبقة. في حالة وجود ضوضاء في الإخراج ، تكون المشكلة خطيرة للغاية وسيكون التحيز في النتائج مرتفعًا جدًا.
هناك طريقتان شائعتان لإزالة الضوضاء من مجموعات البيانات. إذا أثرت الضوضاء على وسم الحالات ، يتم استخدام طرق تلميع البيانات لإزالة الضوضاء. تتضمن الطريقة الأخرى استخدام مرشحات الضوضاء التي يمكنها تحديد وإزالة الحالات التي تحتوي على ضوضاء من البيانات وهذا لا يتطلب تعديل تقنية استخراج البيانات.
التقليل من مهام ما قبل المعالجة
يمكن أن يتضمن إعداد البيانات لخوارزمية تحليل البيانات الخاصة بك العديد من العمليات اعتمادًا على المتطلبات الفريدة للتطبيق. ومع ذلك ، يمكن تجنب العمليات الأساسية مثل التطهير وإلغاء البيانات المكررة والتطبيع في معظم الحالات إذا اخترت المصدر الصحيح لاستخراج البيانات. من المستبعد جدًا أن يمنحك مصدر خام بيانات نظيفة. بقدر ما يتعلق الأمر باستخراج بيانات الويب ، يمكن أن تمنحك خدمة تجريف الويب المدارة مثل PromptCloud بيانات نظيفة وجاهزة لاستخدام البيانات الجاهزة لتوصيلها بنظام التحليلات الخاص بك. نظرًا لأن البيانات التي يوفرها حل DaaS الخاص بنا نظيفة ، يمكنك توفير أفضل جهودك لمهام معالجة البيانات الخاصة بالتطبيق.
