استخدام جداول بيانات Google ككشطة ويب أساسية - دليل PromptCloud
نشرت: 2022-11-08برنامج Google Suite باعتباره Web Scraper
تحتوي أوراق Google على بعض الوظائف الرائعة وسهولة الوصول إليها. يقوم بمعظم الرفع الثقيل لاستخراج نقاط وأقسام بيانات محددة. يعمل تجريف أوراق Google لبيانات موقع الويب باستخدام بناء جملة الاستيراد والتعرف على برنامج Google النصي أو إضافة Python. كما يقول البحث ، تعمل مستندات كشط الويب بشكل أفضل مع الأشخاص الذين يحللون مواقع الويب والمنتديات بانتظام. يستخدم مهندسو البيانات والمسؤولون التنفيذيون في الخطوط الأمامية منتجات مثل PromptCloud ، للحصول على تجربة أكثر قوة ، لمسح بيانات الويب. في هذه المدونة ، يمكنك العثور على معلومات حول استخدام صيغ مجموعة Google ، وكيفية استيراد البيانات من مواقع الويب ، والقيود المفروضة على استخدام جداول بيانات Google ككاشطة ويب. لكن ، لنبدأ أولاً بالنظر في الصيغ الخاصة بهيكلة البيانات.
بناء الجملة لسحب بيانات الويب إلى جداول البيانات
المذكورة أدناه هي صيغ تجريف الويب التي يمكنك استخدامها لاستخراج البيانات.
ImportXML
يتم استخدام بناء الجملة هذا للحصول على البيانات من عنوان Url منظم مبني على موجزات HTML و XML. يمكنك الحصول على تفاصيل حول عناوين الصفحات والتواريخ وأسماء المؤلفين. باستخدام استعلام ، يمكنك تحديد قسم صفحة الويب الذي تريد كشطه. تدعم هذه الوظيفة أيضًا خلاصات CSV و ATOM XML بدون استخدام رمز. امسح عنوان URL لصفحة الويب واستخدم XPath ، ابحث عن القسم للتنقل عبر العناصر. يمكن أن تعزى البيانات الممسوحة ضوئيًا إلى مستند XML. ابدأ بمستند ورقة Google جديد وأضف عنوان URL لصفحة الويب التي تريد كشط البيانات منها. عند العثور على Xpath الخاص بالعنصر ، استخدم بناء جملة ImportXML واحصل على بيانات الويب المنظمة. قم بالتمرير فوق القسم ، وانتقل إلى الخيارات ، وانقر فوق فحص ، واختر نسخ Xpath لاستخراج البيانات في الورقة الجديدة.
أدخل Xpath Url في الأوراق مع بعض التعديلات الطفيفة خاصة إذا كنت تستخدم Chrome. دائمًا ما تقوم عناوين URL المنسوخة من هذا المستعرض بإحاطة المسار بين قوسين مزدوجين. ومع ذلك ، لكشط موقع الويب ، يجب تغيير الأقواس المزدوجة إلى عرض أسعار واحد. أيضًا ، قم بتعديل عنوان الصفحة لتبدأ به وأرسل الاستعلام لالتقاط العناصر الرئيسية لصفحة الويب. في بضع ثوانٍ ، يُرجع الاستعلام المعلومات الموجودة في ورقة Google بتنسيق منظم.
استيراد HTML
يتم استخدام بناء الجملة هذا بشكل رئيسي لإنشاء قوائم واستيراد جداول من موقع الويب. لن تقوم هذه الوظيفة باستيراد الجدول بسهولة فحسب ، بل ستستمر أيضًا في تحديث البيانات المسحوبة على فترات منتظمة. فحص بناء جملة Html لنقاط البيانات مثل علامة الجدول والقائمة غير المرتبة وعلامة القائمة المرتبة داخل النص لنسخ البيانات من صفحة الويب. لاستيراد البيانات من خلال HTML ، يجب أن يكون عنوان URL محاطًا بعلامات اقتباس مزدوجة مع فهرسة مناسبة للجدول. تصبح العملية صعبة إذا كان لديك أكثر من جدول واحد للمسح الضوئي على الصفحة. هنا حيث ستحتاج إلى تشغيل الفحص باستخدام وحدة تحكم المطور أو القائمة باستخدام F12 على لوحة المفاتيح. انسخ الصيغة في وحدة التحكم لفهرسة العناصر.

لاستيراد أعمدة أو صفوف محددة فقط ، يمكنك استخدام عامل التصفية في بناء الجملة لجلب البيانات. كإعداد عام لبدلة Google ، يتم تحديث المستند كل ساعة. ومع ذلك ، إذا كنت بحاجة إلى بيانات في الوقت الفعلي ، فيمكنك ضبط سرعة التحديث وفقًا لذلك. لأتمتة تحديث الصفحة ، فإن استخدام مشغل مثل code.gs و myfunction سيفي بالغرض. كما يرسل إشعارات إذا توقف المشغل عن العمل أو توقف عن تحديث الجداول. يمكن أن تتعامل "جداول بيانات Google" مع ما يصل إلى 50 طلب استيراد HTML متكرر.
استيراد تغذية
يتم استخدام بناء الجملة هذا لمسح المحتوى من صفحة مباشرة إلى أوراق Google. يمنحك ImportFeed الوصول إلى RSS وموجز دقيق لاستيراد البيانات تلقائيًا. يمكنك إرسال استعلام لاستيراد البيانات باستخدام أكواد مثل StartRow لتحديد نفس الصف لنسخ البيانات و NumberRow لتحديد كمية البيانات الممسوحة ضوئيًا. عند تحديد نطاق من الخلايا ، يتم استيراد البيانات من موجزات Atom عبر مسار عنوان Url المحدد. البيانات التي يتم التقاطها بواسطة بناء الجملة هذا مفيدة لفهم المدونات والمقالات. سيؤدي استخدام الوسائط مثل الاستعلام والعنوان إلى إخبار الزاحف على وجه التحديد بالمعلومات المطلوبة ومن أي مسار.
إيمبورتداتا وإيمبورترانج
يستخدم بناء الجملة أعلاه ، ImportData لمسح البيانات ونسخها من مصادر مختلفة وأوراق Google. بينما يقوم ImportRange بنسخ قسم من صفحة الويب. كما يوحي الاسم ، فإن استيراد النطاق هو الوظيفة الأكثر أهمية وفائدة في أوراق Google لأنه يمكنه نسخ الخلايا من جداول بيانات مستقلة. باستخدام استعلام ، يمكنك البحث عن البيانات وتصفيتها وفرزها مثل أي مجموعة بيانات أخرى. يوفر الاستعلام كوظيفة الكثير من الوقت أثناء التعامل مع جداول بيانات متعددة ويمكن استخدامه جنبًا إلى جنب لأي صيغتين. كما لوحظ ، يساعد الاستعلام في معالجة البيانات بطرق متعددة وتقرر وظيفة الاستيراد كيفية عرض البيانات.
استيراد البيانات من المواقع الإلكترونية
لقد رأينا كيفية استخدام صيغ Google Suite لتسهيل جهود البحث وتعلم كيفية استيراد البيانات من مواقع الويب. يمنحك الحصول على خبرة عملية في هذين الأمرين الثقة لأداء تجريف الويب باستخدام أوراق Google للمهام اليومية.
ورقة جوجل: الجداول
يعد تجريف الجداول من موقع الويب أمرًا سهلاً ، ولكن يجب تنفيذه بشكل صحيح. انقر فوق أي خلية فارغة ، واكتب صيغة الاستيراد والصق عنوان URL الذي تريد كشطه وأضف رقم الجدول إلى عنوان URL. قم بتنفيذ هذه الوظيفة وسترى جدول البيانات ممتلئًا بجدول كامل. استخدم مصفوفة القيم داخل دالة الفهرس لتصفية الصفوف والأعمدة.
الرؤوس والعناوين
هذه الوظيفة أفضل للبحث من خلال عناوين وعناوين المقالات الإخبارية وأحدث المدونات. بمجرد تحديد عنوان Url المحدد والمعرف داخل نص HTML النصي يمكنه توجيه الزاحف نحو الرؤوس. هذه الطريقة مفيدة عندما يكون لديك أكثر من 50 موقعًا للمسح لإبداء رأي حول موضوع ما. نظرًا لأن كل موقع ويب تم إنشاؤه بشكل مختلف ، فإن معرف Url يتغير باستمرار ، وعندها يمكن أن تساعد أداة تجريف الويب مثل PromptCloud في تلبية احتياجات عملك.
تغذية المحتوى
يمكن استخدام هذه الوظيفة لاستيراد كل المحتوى الحديث من مواقع الويب والمدونات والمقالات. يمكنك تصفية هذه البيانات عن طريق إرسال استفسارات حول أفضل المدونات والمدونات الحديثة. أيضًا ، أرسل استعلامًا على عنوان Url لإنشاء قائمة الخلاصات الخاصة بك. يتم استخدام هذه الطريقة بشكل رئيسي من قبل الشركات لتتبع كيفية قيام المنافسين بنشر تحديثات المحتوى على مواقع الويب الخاصة بهم وصفحات وسائل التواصل الاجتماعي الخاصة بهم.
حدود استخدام الأوراق ككاشطة
الاستخدام الأساسي لأوراق Google ليس لإلغاء بيانات الويب. لذلك يمكننا أن نتوقع قيودًا أثناء استخدام الأوراق عندما يتم أخذ الكمية والمعدل الذي يتم به كشط البيانات في الاعتبار. بمجرد أن يتجاوز رقم الكشط 50 صفًا أو 100 صفًا ، يتعطل Google ببساطة أو يعود بخطأ. يتم فرز الأشياء البسيطة مثل فهم محتوى الويب وفصله وفقًا لذلك باستخدام وظائف Google.
استنتاج
باستخدام أوراق Google ، يمكنك كشط بيانات H1 والعناوين والأوصاف وروابط الصفحات. لدرجة أنه يمكنك سحب محتوى خارج الصفحة مثل عناوين التعريف والأوصاف من صفحة الويب. يمكنك أيضًا كشط صفحات الويب متعددة المؤلفين من خلال الجمع بين أكواد الاستيراد والفهرسة. بشكل عام ، سيوفر لك جدول بيانات Google تجربة جيدة لكشف بيانات الويب طالما أن الكمية قابلة للقياس الكمي ومحددة مسبقًا. إنه الأفضل للمشاريع الصغيرة على مستوى الفريق أو يعمل بشكل جيد لإجراء مشروع بحث جامعي. إذا كان لديك مشاريع كبيرة الحجم ، فاتصل بـ [email protected] للحصول على تجريف ويب مخصص.
