بدائل Portia لاستخراج بيانات الويب

نشرت: 2019-07-15
عرض جدول المحتويات
ما هي مزايا كاشطات الويب المرئية؟
في أي مناطق لا تنقص كاشطات الويب المرئية؟
ما هي البدائل الأخرى التي لدينا؟
مقدمو DaaS مقابل الفريق الداخلي؟
استنتاج

كانت Portia أداة مرئية تسمح للمستخدمين بالزحف إلى مواقع الويب دون امتلاك أي معرفة برمجية. لقد كانت خدمة مستضافة ولكن نظرًا لتضاؤل ​​استخدام الكاشطات المرئية ، فقد تم إزالتها ولم تعد مستخدمة اليوم. إذن كيف استخدم الناس بورتيا عندما كانت موجودة؟ لاستخدام Portia ، ستحتاج إلى إدخال نمط عناوين URL التي يجب زيارتها ، ثم تحديد العناصر في صفحات الويب هذه بإيماءات التأشير والنقر ، أو باستخدام CSS أو XPath. على الرغم من سهولة الاستخدام ، كانت أكبر مشاكل Portia هي:

  • لقد كانت أداة تستغرق وقتًا طويلاً للتحكم فيها مقارنة بأدوات كشط الويب مفتوحة المصدر الأخرى.
  • كان من الصعب التعامل مع التنقل في مواقع الويب.
  • كنت بحاجة إلى ذكر الصفحات المستهدفة عندما بدأت في الزحف لمنع Portia من زيارة عناوين URL غير الضرورية.
  • لم تكن هناك طريقة لتوصيل قاعدة بيانات لحفظ نقاط البيانات التي تم كشطها.

ما هي مزايا كاشطات الويب المرئية؟

عندما يكون لديك مطلب تجريف ويب لمرة واحدة ، يمكنك استخدام مكشطة ويب مرئية ، ولكن لا يوصى باستخدامها كجزء من سير عمل الأعمال. في حال كنت تدير نشاطًا تجاريًا تحتاج فيه إلى الزحف إلى البيانات من عدد قليل جدًا من صفحات الويب الثابتة ، وهذا أيضًا في كثير من الأحيان (قل مرة واحدة في الشهر) ، يمكنك الحصول على شخص في فريقك يعرف البيانات التي يجب كشطها لفهم عمل مكشطة الويب المرئية في غضون ساعات ثم استخراج بيانات الويب من وقت لآخر. تعد برامج زحف الويب المرئية مفيدة بشكل خاص للشركات الصغيرة التي تفتقر إلى فريق تقني ولديها متطلبات تجريف دقيقة.

يشبه زاحف الويب المرئي تقريبًا شخصًا ينقر على "فحص العناصر" في صفحة ويب ويقوم بنسخ البيانات ولصقها من محتوى HTML. بدلاً من ذلك ، عند استخدام مكشطة ويب مرئية ، ينتهي بك الأمر بالنقر فوق جزء من صفحة الويب ويقوم البرنامج بنسخ البيانات لك في موقع من اختيارك.

بدائل بورتيا

في أي مناطق لا تنقص كاشطات الويب المرئية؟

ومع ذلك ، فإن الكاشطات المرئية تقصر عندما يكون لديك بعض الرفع الثقيل الجاد للقيام به.

قد تحتاج إلى تضمين كشط بعض البيانات كجزء من سير عمل عملك (يجب أن يكون آليًا).
قد تحتاج البيانات إلى أن يتم كشطها عبر مئات أو آلاف الصفحات وقد تحتاج إلى التحديث بشكل متكرر.

قد تكون هناك حاجة إلى موجز مباشر للبيانات المسردة لوحدة أعمال معينة. في معظم الحالات المذكورة أعلاه ، سيكون مكشطة الويب القائمة على الكود أكثر فائدة من مكشطة بصرية.

تجد معظم مشاريع التجريف الجماعي الحاجة إلى الزحف إلى عدد كبير من صفحات الويب المماثلة لبيانات استخراج بيانات الويب حول العناصر المختلفة. يمكن أن تتراوح هذه العناصر من معلومات الرحلة على مواقع الحجز الإلكتروني إلى تفاصيل المنتج على مواقع التجارة الإلكترونية. المنطق المطبق في مثل هذه السيناريوهات هو أنك تحاول فهم النمط الذي يتم فيه تخزين البيانات في صفحات الويب باستخدام عدد قليل من صفحات الويب ، واستخدام رمز لا يمكنه فقط الزحف إلى الصفحات ذات الهيكل نفسه تمامًا ولكن حتى الصفحات ذات البنية المماثلة . أيضًا أثناء تجريف جميع الصفحات المتاحة على موقع ويب ، قد يلزم تجاهل الصفحات ذات البنية المعينة. كل هذه التخصيصات غير ممكنة على مكشطة بصرية ، وبالتالي ، لا يوصى بكشط عدد كبير جدًا من الصفحات باستخدام مكشطة بصرية.

من ناحية أخرى ، نظرًا للتغيرات في شكل ومظهر مواقع الويب كل بضعة أسابيع أو أشهر ، قد تحتاج إلى تدريب مكشطة الويب المرئية في كل مرة تتغير فيها واجهة مستخدم موقع الويب. من ناحية أخرى ، عند استخدام مكشطة قائمة على الكود ، قد لا يتطلب تغيير واجهة المستخدم في كثير من الأحيان أي تغييرات في الكاشطة نظرًا لأن موقع الويب قد يظل كما هو من الناحية الهيكلية. حتى إذا كانت هناك بعض التغييرات في واجهة المستخدم التي قد تتطلب تغييرًا في الكاشطة ، فعادة ما تكون التغييرات ضئيلة ويكون ضبط الكاشطة على التغييرات بسيطًا بدرجة كافية.

ما هي البدائل الأخرى التي لدينا؟

توجد بدائل عديدة لبورتيا. يتم استخدام لغات مثل Python و R و Golang من قبل المطورين وفرق تجريف الويب في جميع أنحاء العالم لاستخراج بيانات الويب من صفحات الويب. يتم تطوير طرق جديدة لجعل العملية أسرع. على سبيل المثال ، بمساعدة البرمجة المتوازية والتخزين المؤقت في Golang ، باستخدام الحزمة المسماة Colly ، يمكنك استخدام إعدادات مخصصة مثل ما يلي:

  1. عدد الصفحات التي تريد الزحف إليها بشكل متزامن في أي وقت.
  2. الحد الأقصى للعمق الذي يجب أن تذهب إليه المكشطة بمجرد أن تبدأ في الكشط من صفحة الويب. (ما يعنيه هذا هو أنه إذا قمت بتعيين أقصى عمق على 3 ، فسيتم الزحف إلى الصفحة العليا ، والانتقال إلى عنوان URL الموجود فيها ، والزحف إليها ، ثم الانتقال إلى عنوان URL الموجود في تلك الصفحة ، والزحف إلى ذلك أيضًا ، ولكن الآن في الصفحة الثالثة إذا عثر على عنوان URL ، فلن يذهب أبعد من ذلك).
  3. يمكنك تعيين فحص للكلمات الموجودة في عناوين URL - أي في حالة وجود كلمة في عنوان URL ، فيجب أن يتم كشط صفحة الويب في عنوان URL هذا. أو يمكنك تعيين الاستثناءات- عناوين URL بكلمة معينة ، لا ينبغي الوصول إليها بواسطة أداة الكشط.

هذه ليست سوى بعض الأمثلة من مئات الوظائف الصغيرة التي تحصل عليها عندما تقوم ببناء مكشطة ويب بنفسك.

مقدمو DaaS مقابل الفريق الداخلي؟

يجب أن تحاول معظم الشركات التي تفتقر إلى فريق تقني ، أو حتى أعضاء ليس لديهم فهم أساسي لأي لغة برمجة نصية ، ألا تبدأ في بناء فريق تجريف داخلي. السبب وراء هذا بسيط. الأموال التي تنفقها في تجنيد المطورين ومن ثم حملهم على بناء وصيانة نظام كشط ويب جديد تمامًا لاحتياجات عملك سيكون ضخمًا. وفي نهاية اليوم ، إذا كنت شركة صغيرة ، ولم يكن تجريف الويب وقودًا لنشاطك التجاري (أي أن عملك لا يتمحور حول البيانات التي تزحف إليها من الويب) ، فليس من المنطقي بناء فريق داخلي.

الحل البسيط ، في هذه الحالة ، هو مزودي خدمة DaaS الذين يأخذون متطلباتك ويقدمون لك بياناتك بتنسيق من اختيارك. يفخر فريقنا في PromptCloud بتقليل تجريف الويب إلى عملية من خطوتين للشركات والمؤسسات.

استنتاج

في حين أن الأدوات المرئية مفيدة لفرق العمل ، يمكننا أن نتفق على أن تجريف الويب ليس مجرد مهمة عمل بسيطة. إنها مهمة يجب أن تكون فعالة وسريعة وقابلة للتخصيص بالكامل. إذا كان لديك متطلبات تجريف الويب كبيرة الحجم أو ترغب في استخراج بيانات الويب على نطاق أكبر ، فمن المستحسن استخدام خدمات تجريف الويب.

إذا لم تكن بارعًا في البرمجة أو كانت متطلباتك معقدة ، فيمكنك استخدام مزود خدمة مُدار بالكامل مثل PromptCloud للحصول على بيانات نظيفة بطريقة آلية دون أي متاعب فنية أو تعلم أي أداة.