5 أخطاء يجب تجنبها في ملفات Sitemap الخاصة بك
نشرت: 2022-03-15لقد أنشأنا أداة تتيح لنا التحقق من عدد الصفحات المفهرسة في Google على موقع معين .
حتى الآن ، قمنا بفحص المئات من مواقع الويب وساعدتنا الأداة في تشخيص مشكلات تحسين محركات البحث التي كان عملاؤنا يتعاملون معها ، مثل تلك المتعلقة بميزانية الزحف والفهرسة.
غالبًا ما نواجه حالات شاذة في البيانات عند التحقيق في هذه المشكلات ونرى العديد من مواقع الويب بها أخطاء جسيمة في خرائط مواقعها.
كيف يمكن أن يؤثر هذا على موقع الويب الخاص بك؟
إذا لم يتم تنفيذ ملف Sitemap بشكل صحيح ، يمكن أن يقضي Googlebot وقتًا طويلاً في الزحف إلى عناوين URL منخفضة الجودة ، مما يعد إهدارًا لميزانية الزحف. نتيجة لذلك ، قد لا تتم فهرسة العديد من عناوين URL القيمة على موقع الويب الخاص بك في Google ، لأنه لن يكون لديها موارد كافية للزحف إليها.
ما الأخطاء التي ترتكبها مواقع الويب الشهيرة في خرائط مواقعها ، وكيف يمكنك تجنبها للتأكد من أن Google لا تضيع ميزانية الزحف على محتوى غير ذي صلة؟
دعونا نحفر.
ما هي ميزانية الزحف؟
أولاً ، اسمحوا لي أن أوضح ما هي ميزانية الزحف ومدى ملاءمتها لفهرسة مواقع الويب.
تستطيع Google الزحف إلى الكثير من المحتوى ، لكن مواردها ليست غير محدودة - لذا فهي بحاجة إلى اتخاذ خيارات بالموارد التي لديها.
لهذا السبب يحدد Googlebot ميزانية الزحف لجميع مواقع الويب - عدد عناوين URL التي يمكنه الزحف إليها ويريد الزحف إليها.
تعتمد ميزانية الزحف للموقع على مقياسين :
- حد سعة الزحف - محسوب للزحف إلى كل المحتوى المهم على موقع ويب دون تجاوز حدود الخادم - و ،
- طلب الزحف - يتم تحديده حسب حجم موقع الويب وشعبيته وتكرار التحديث.
إذا تباطأ الموقع أو استجاب لأخطاء الخادم ، فسيقل الحد وسيقل زحف Googlebot.المصدر: وثائق جوجل
نظرًا لقدرات Googlebot المحدودة ، يجب أن تخطط لعناوين URL التي يزحف إليها Googlebot على موقع الويب الخاص بك.
تم توضيح مفتاح تعديل عناوين URL التي يتم الزحف إليها في وثائق Google:
إدارة مخزون عناوين URL: استخدم الأدوات المناسبة لإخبار Google بالصفحات التي يجب الزحف إليها والصفحات التي لا يجب الزحف إليها. إذا قضى Google وقتًا طويلاً في الزحف إلى عناوين URL غير المناسبة للفهرس ، فقد يقرر Googlebot أنه لا يستحق الوقت للنظر في بقية موقعك.المصدر: وثائق جوجل
للتلخيص - إليك ما نعرفه حتى الآن:
- إذا كان موقع الويب الخاص بك بطيئًا ، فقد يزحف محرك بحث Google إلى عدد أقل من عناوين URL ، وبالتالي سيجد عدد أقل من عناوين URL طريقه إلى فهرس Google ،
- إذا كان Google قادرًا على اكتشاف الكثير من عناوين URL منخفضة الجودة عند الزحف إلى موقعك ، فقد يقرر أن الجودة الإجمالية لموقعك منخفضة.
إليك نصيحة مهمة:
مع وجود عدد كبير من عناوين URL منخفضة الجودة التي يمكن لـ Google الزحف إليها ، قد يفقد Googlebot الكثير من الوقت في الزحف إليها وقد لا يتمكن من الزحف إلى العديد من عناوين URL عالية الجودة على موقع الويب الخاص بك.
هذا يحمل أكبر قدر من الأهمية للمواقع الكبيرة أو سريعة التغير لأنها تحتاج إلى الزحف إليها كثيرًا وبشكل مكثف من أجل جذب حركة المرور.
ما أهمية خرائط المواقع لميزانية الزحف الخاصة بك؟
كما أوضحت ، يعد تحسين ميزانية الزحف خطوة مهمة للغاية لفهرسة موقعك.
تتمثل إحدى طرق إدارة مخزون عناوين URL الخاصة بك في إنشاء خريطة موقع مُحسّنة وصيانتها.
ملف Sitemap هو ملف تقدم فيه معلومات حول الصفحات ومقاطع الفيديو والملفات الأخرى على موقعك والعلاقات بينها [...]. يخبر ملف Sitemap Google بالصفحات والملفات التي تعتقد أنها مهمة في موقعك ، كما يوفر معلومات قيمة حول هذه الملفات. على سبيل المثال ، عند آخر تحديث للصفحة وأي إصدارات للصفحة بلغة بديلة.المصدر: وثائق جوجل
ومع ذلك ، تفشل العديد من مواقع الويب في إنشاء خرائط مواقع مُحسَّنة جيدًا. لحسن الحظ ، يمكننا التعلم من أخطائهم.
ما الأخطاء التي يجب عليك تجنبها في خريطة الموقع الخاصة بك؟
لقد قمت بتحليل العديد من المواقع الشائعة ووجدت أن الكثير منهم يرتكبون أخطاء في خرائط مواقعهم والتي تؤثر سلبًا على ميزانية الزحف الخاصة بهم ، مما قد يؤدي إلى مشكلات في تغطية الفهرس الخاصة بهم.
هذا هو تفصيل الأخطاء التي يجب تجنبها عند إنشاء خريطة الموقع.
إرسال عناوين URL مشوهة
أحد الأخطاء التي اكتشفتها يتعلق ببنية عناوين URL في ملفات Sitemap.
دعنا نحللها من خلال النظر في مثال محدد.
Whisky.de
عندما رأيت الإحصائيات التي تم جمعها بواسطة برنامجنا ، شعرت بالذهول: فقد أظهرت أن 0٪ من صفحات whisky.de المقدمة في خرائط المواقع تمت فهرستها في Google.
كنت أعلم أن هذا لا يمكن أن يكون صحيحًا ، لذلك قمت بالتحقيق في البيانات بشكل أكبر.
بدت معظم عناوين URL في ملفات sitemap الخاصة بـ whisky.de صالحة:
- كانوا قانونيين ،
- لم يتم حظرهم بواسطة علامة noindex robots meta tag ،
- لم يتم حظرهم بواسطة الأمر disallow في ملف robots.txt ،
- كانوا يستجيبون برمز الحالة 200.
ولكن بعد ذلك لاحظت أن جميع عناوين URL بها شرطات مائلة مزدوجة تتبع نطاق المستوى الأعلى - ألق نظرة على هذا النموذج:
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaessern.html
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
- https://www.whisky.de//presse/pressespiegel/playboy.html
تبدو الشرطة المائلة المزدوجة خطأ برمجيًا واضحًا أثناء إنشاء خرائط مواقع وواحد يسهل إصلاحه.

ومع ذلك ، تحتوي الصفحات المضمنة في خرائط المواقع على علامات أساسية تشير إلى عناوين URL ذات الصلة - إصداراتها الصحيحة بشرطة مائلة واحدة.
نتيجةً لذلك ، من المحتمل جدًا أن تقوم Google بزيارة ضعف عدد عناوين URL كما هو مقصود: عناوين URL ذات الشرطات المفردة والشرطات المزدوجة.
لدى Google آليات لاكتشاف الأنماط الخاطئة في عناوين URL ، ومن الناحية الفنية ، من المحتمل أن تكون Google قد رصدت الخطأ. لذلك ، يمكن الزحف إلى whisky.de وفقًا لذلك وفهرسة عناوين URL المنظمة بشكل صحيح. ولكن لا توجد طريقة لنا للتحقق من ذلك دون الوصول إلى حساب Google Search Console أو سجلات الخادم.
من الناحية العملية ، لا يجب أن تعتمد على خوارزميات Google لإصلاح أخطائك - يمكن لممارسات مثل تلك التي وصفتها أن تضع عبئًا على ميزانية الزحف الخاصة بك وحتى تمنع صفحاتك من فهرس Google.
إرسال عناوين URL ذات المحتوى الرقيق
هناك وباء من مواقع الويب التي تتضمن صفحات ذات محتوى رفيع في خرائط مواقعها.
دعني اريك مثالا.
آن تايلور
اكتشفت هذا الخطأ على موقع AnnTaylor.com ، وهو متجر ذو تصنيف عالي لبيع الملابس النسائية.
كنت أرغب في التحقق من عدد فئات منتجاتهم التي تمت فهرستها في Google ، لذلك قمت بالتحقق من خريطة موقعهم المخصصة لصفحات الفئات.
أظهر الفحص الأولي أنه تمت فهرسة 46٪ فقط من صفحات الفئات في Google.
لذلك ، نظرت إلى هذا بمزيد من التفصيل وعلمت أن معظم صفحات الفئات كانت لينة 404s.
على وجه التحديد ، عرضت هذه الصفحات الرسالة التالية:

لم يكن مفاجئًا أن Google لم ترغب في فهرستها!
كانت الخطوة المنطقية التالية هي استبعاد soft 404s من العينة الخاصة بي. لهذا الغرض ، راجعت حالة الفهرسة لنفس خريطة الموقع ، لكنني استخدمت مشغلًا يستبعد الصفحات التي تحتوي على عبارة "بحثنا بأناقة ولم يحالفنا الحظ" كما هو موضح في الصورة أعلاه.
اتضح أنه بعد استبعاد عناوين soft 404 URL ، تتم فهرسة ما يصل إلى 82٪ من الصفحات في خريطة موقع الفئة الخاصة بهم.
ومع ذلك ، لم تتم فهرسة 18٪ من صفحات الفئات في Google - وهذا ما يجب أن تركز عليه مُحسّنات محرّكات البحث على التحقيق.
وضع آن تايلور خطير للأسباب التالية:
- بادئ ذي بدء ، تهدر Google ميزانية الزحف على الزحف إلى محتوى ضعيف.
- بالإضافة إلى ذلك ، ليس لغزا أن يحكم Google على الجودة على ثلاثة مستويات: الصفحة ، والقسم ، وعلى مستوى الموقع. قد تقرر Google أن صفحات الفئات ، بشكل عام ، ذات جودة منخفضة ويمكن إلغاء فهرستها جميعًا . في الماضي ، حدث هذا لمواقع مثل Giphy أو Instagram أو Pinterest ، كما وصفت في إحدى مقالاتي. دعونا نأمل ألا يحدث لـ AnnTaylor.
تخطي عناوين URL القيمة
كما ذكرت من قبل ، تساعد خرائط المواقع Google في فهم موقع الويب الخاص بك بشكل أفضل والزحف إليه بشكل أكثر ذكاءً.
ومع ذلك ، لاحظت أن العديد من مواقع الويب لا تتضمن عناوين URL الأكثر قيمة في خرائط المواقع.
هنا مثال واحد.
GoodReads
لقد تحققت من عينة عامة (مأخوذة من جميع عناوين URL من ملفات Sitemap ) الخاصة بـ GoodReads واكتشفت أن 35٪ فقط منها تمت فهرستها.
لقد فوجئت جدًا ، حيث أعلم أنه موقع ويب عالي الجودة للغاية. أعلم أنني لست الوحيد الذي يزور GoodReads لقراءة المراجعات ومعرفة ما إذا كان كتاب معين يستحق القراءة.
بعد ذلك ، رأيت أن العينة التي فحصناها لا تحتوي على عناوين URL للكتب المضمنة. لذلك قررت تنزيل جميع خرائط مواقعهم.
النتيجة: لا توجد عناوين URL بها كتب في خرائط المواقع.
لماذا هي علامة سيئة؟
هناك خطر يتمثل في أن Google تعطي الأولوية لعناوين URL الموجودة في خرائط المواقع وتتخطى بطريقة ما زيارة صفحات المنتج.
إخلاء المسؤولية: GoodReads ليس عميلنا. لذلك ، من الناحية الفنية ، من الممكن أن يكون لديهم خريطة موقع خاصة تم إرسالها إلى Google Search Console.
الإفراط في استخدام المعلمة <lastmod>
إحدى المعلمات التي يمكنك تضمينها في ملف خريطة الموقع هي <lastmod> ، مع تحديد آخر مرة تم فيها تحديث الصفحة. بهذه الطريقة ، يمكن لـ Google بسهولة اختيار عناوين URL التي تغيرت مؤخرًا.
ومع ذلك ، فإن بعض مواقع الويب تفرط في استخدام هذه التقنية. وقد يكون لفعل ذلك تأثيرات ضارة لأنه ، كما قرأنا في إرشادات Google ، " يستخدم Google قيمة <lastmod> إذا كانت دقيقة ويمكن التحقق منها (على سبيل المثال من خلال المقارنة مع آخر تعديل للصفحة)."
لنلقِ نظرة على مثال لموقع يفرط في استخدام المعلمة <lastmod>.
افون
لقد ألقيت نظرة على خريطة موقع منتج Avon وجميع عناوين URL المدرجة لها نفس معلمة <lastmod> - اليوم الحالي:

من الآمن افتراض عدم تغيير جميع عناوين URL الخاصة بشركة Avon يوميًا ، لذلك تحجم Google عن فهرسة صفحاتها.
الارتباط ببيئة التدريج داخل خرائط المواقع
من الشائع جدًا أن تقوم Google بفهرسة عناوين URL المرحلية.
عادة ما يكون لغزًا كيف يعثر Google على روابط لمثل هذه الصفحات. لكن التفسير الشائع هو أن عناوين URL هذه مرتبطة مباشرة من خرائط المواقع.
Acehardware.com
لاحظ أن موقع acehardware.com قد قام منذ ذلك الحين بتحديث خرائط المواقع وعالج الخطأ أدناه.
هذه عينة راجعتها في البداية.
كما ترى ، اكتشفت أنهم كانوا يربطون موقع التدريج من خريطة الموقع الخاصة بهم.

لماذا يعد تضمين بيئة التدريج في خريطة الموقع أمرًا سيئًا؟
- يزحف محرك بحث Google إلى عناوين URL غير الضرورية.
- إذا تمت فهرسة عناوين URL المرحلية ، فإنها تربك المستخدمين الذين يبحثون عن جزء معين من المعلومات ويتعثرون عليها في نتائج البحث.
أفضل الممارسات التي يجب اتباعها في خرائط المواقع
لقد قمت بالاطلاع على نظرة عامة حول الأشياء التي يجب تجنبها عند إنشاء وإدارة خريطة موقع لموقع ويب.
والآن ، ما هي بعض الممارسات التي يجب عليك اتباعها؟
فيما يلي بعض أفضل الممارسات التي أرشحها:
- قم بتضمين عناوين URL الأساسية فقط في ملفات Sitemap الخاصة بك.
- يجب ألا يزيد حجم ملف Sitemap عن 50000 عنوان URL. يمكنك تقسيمها إلى خرائط مواقع أصغر إذا كان لديك المزيد من عناوين URL.
- لا تقم بتضمين معرفات الجلسات من عناوين URL الخاصة بك في ملفات Sitemap - بهذه الطريقة ، يمكنك تقليل الزحف المكرر لعناوين URL المحددة.
- استخدم عناوين URL متسقة وكاملة - قم بتضمين عناوين URL مطلقة وليست نسبية.
كما ذكرت ، تأكد من أن خرائط مواقعك لا تتضمن سوى عناوين URL القيمة. يمكنك إجراء عملية زحف كاملة إلى موقع الويب للتحقق مما إذا كانت أي عناوين URL موجودة في عملية الزحف مفقودة من خريطة موقعك.
هذا مجرد غيض من فيض عندما يتعلق الأمر بتحسين خريطة موقعك - لمزيد من التوصيات ، اقرأ دليلنا النهائي لخرائط مواقع XML.
تغليف
خرائط المواقع ذات قيمة لكل موقع.
ومع ذلك ، كما ترون من أمثلة المواقع التي أدرجتها ، فإن العديد من مواقع الويب الشهيرة لا تحتوي على خرائط مواقع محسّنة ، وهو ما يأتي بتكلفة - تغطية الفهرس الخاصة بهم تتأثر بشدة.
أيضًا ، ضع في اعتبارك أن أخطاء تحسين محركات البحث في خرائط المواقع يمكن أن تؤثر سلبًا على ميزانية الزحف ، وهو أمر بالغ الأهمية إذا كان لديك موقع ويب متوسط أو كبير.
آمل الآن أن تعرف الأخطاء التي يجب تجنبها وستكون في طريقك لإنشاء خريطة موقع تساعد Google في الزحف إلى موقعك بشكل أكثر كفاءة ، مما يؤدي إلى تغطية فهرسة محسنة.
