كيفية إنشاء ملف Robots.txt جيد لموقعك
نشرت: 2018-07-09Robots.txt - إنه موضوع تقني أكثر. يمكن أن يكون ملف Robots.txt مصطلحًا جديدًا لمعظم الأشخاص. في الواقع ، إنه نص صغير يحدد مستقبل موقع الويب الخاص بك.
كيف يعقل ذلك؟
إنه ممكن. يمكن لهذا النص الصغير التحكم في حركة المرور على موقعك. إذا قمت بإدخالها على أنها خاطئة ، فقد لا تكون صفحتك في نتيجة البحث. لذلك ، من المهم معرفة كيفية استخدامه بشكل صحيح.
إنها إحدى أبسط وأسهل طرق تحسين محركات البحث التي يمكنك تطبيقها على موقعك. لا يحتاج إلى أي معرفة فنية للتحكم في قوة ملف robots.txt. إذا كان بإمكانك العثور على الكود المصدري فهو سهل.
![]()
أيضًا ، لن يساعد وضع ملف robots.txt في أي مكان على الموقع. لذلك ، عليك أولاً العثور على شفرة المصدر والاحتفاظ بها هناك. عندها فقط سيكون زاحف الويب قادرًا على تحديد التعليمات الخاصة بك والتصرف وفقًا لذلك.
من هذا المقال سوف تحصل على إجابة للأسئلة التالية:
- ما هو ملف robots.txt؟
- استخدامات ملف robot.txt
- كيف يعمل؟
- كيف تصنعه؟
- أهمية ملف robots.txt؟
- ما الذي يجب تضمينه في هذا الملف؟
أولا ، اسمحوا لي أن أشرح المصطلح
ما هو ملف Robots.txt؟
Robots.txt هو ملف نصي يقع في الدليل الجذر للموقع. يتحكم في برامج الزحف والعناكب لمحركات البحث عند زيارة موقع ويب معين. هذا يعني أنه يخبر محرك البحث عن صفحات مواقع الويب التي ترغب في زيارتها أو عدم زيارتها.
يحاول كل مالكي مواقع الويب الانتباه في الوقت الحاضر. يمكنك القيام بذلك باستخدام هذا النص الصغير. يساعد تضمين أو استبعاد صفحة معينة من نتيجة البحث. سوف تحصل على فكرة عن هذا بعد قراءة هذا المقال.
عندما يصل الزاحف إلى أحد المواقع ، فإن أول ما يطلبه هو ملف "robots.txt". إذا كان هناك مثل هذا الملف ، فإنه ينتقل إلى تعليمات الفهرسة لمزيد من الإجراءات.
إذا لم تكن قد أضفت ملف robots.txt ، فيمكن لمحرك البحث الزحف بسهولة إلى موقعك في أي مكان وفهرسة كل شيء تجده على موقعك. ولكن من الممارسات الجيدة تحديد ملف Sitemap الخاص بك. يسهل على محرك البحث العثور على محتويات جديدة دون أي تأخير.
استخدامات ملف robots.txt:
- يمكنك تجنب تكرار الصفحات باستخدام هذا النص
- إذا كنت لا تريد أن يقوم محرك البحث بفهرسة صفحة نتائج البحث الداخلية الخاصة بك ، يمكنك استخدام هذا النص
- استخدمه إذا كنت لا تريد أن تقوم محركات البحث بفهرسة مناطق معينة من صفحة الويب الخاصة بك أو الموقع بأكمله
- يمكنك تجنب فهرسة صور أو ملفات معينة
- يمكنك التنقل في محرك البحث إلى خريطة الموقع الخاصة بك
- يمكنك استخدام تأخير الزحف لمنع زيادة التحميل على الخوادم عندما تقوم برامج الزحف بتحميل محتويات متعددة في نفس الوقت.
استخدم فقط ملف robots.txt عندما تحتاج إلى التحكم في الوصول إلى أي صفحة معينة. إذا لم يكن هناك أي شيء من هذا القبيل ، فلا داعي لاستخدامه
كيف يعمل ملف Robots.txt:
محرك البحث له وظيفتان رئيسيتان.
- الزحف إلى موقع الويب لاكتشاف المحتوى
- فهرسة هذا المحتوى لخدمة الباحثين الذين يبحثون عن معلومات معينة
يزحف محرك البحث من موقع إلى موقع آخر. وبالتالي يزحف عبر مليارات المواقع. تُعرف عملية الزحف أيضًا باسم العنكبوت.
بعد الوصول إلى موقع الويب وقبل الزحف من موقع إلى آخر ، يبحث برنامج تتبع الارتباطات عن ملف robots.txt. إذا عثر على أحد ، فسيقوم الزاحف بقراءته أولاً قبل المتابعة على هذا الموقع. يحتوي ملف robots.txt هذا على تعليمات لزاحف الويب. تقول ما إذا كان يجب المضي قدمًا أم لا. إذا لم يتمكن الزاحف من العثور على أي توجيهات أو معلومات حول ما يجب القيام به ، فسيتم متابعة المزيد من النشاط.
أين سيذهب ملف robots.txt؟
يعد ملف robots.txt أول شيء يظهره برنامج WebCrawler أو محرك البحث عند زيارته لأحد المواقع. يبدو فقط في الدليل الرئيسي. إذا لم يتم العثور عليه هناك ، يتابع الزاحف كل شيء في الموقع. لذلك من الضروري وضع ملف robot.txt في الدليل الرئيسي أو المجال الجذر .
لشرح ذلك ، دعنا نأخذ مثالاً على wordpress.com. إذا قام وكيل المستخدم بزيارة www.wordpress.com/robots.txt وإذا لم يكن هناك ملف روبوت ، فإنه يفترض أن الموقع لا يحتوي على أي تعليمات. لذلك يبدأ في فهرسة كل صفحة. إذا كان ملف robot موجودًا على www.wordpress.com /index/robots.text أو www.wordpress.com/homepage/robots.txt فلن يعثر عليه وكيل المستخدم. سيتم التعامل معه كموقع بدون ملف robot.txt.
خطوات إنشاء ملف Robots.txt؟
يحتوي ملف robots.txt على حقلين ؛ سطر واحد باسم وكيل المستخدم أو عدة أسطر مع التوجيه. يشير السطر الثاني إلى الإجراء الذي يتعين على الزاحف القيام به على موقع الويب. دعنا نتحقق من كيفية إنشاء ملف robots.txt
- الخطوة الأولى هي فتح ملف نصي جديد. يمكنك استخدام برنامج Notepad لأجهزة الكمبيوتر الشخصية ومحرر النصوص لنظام Mac وحفظه كملف نص مرفق
- قم بتحميله إلى الدليل الجذر الخاص بك. إنه مجلد على مستوى الجذر يسمى "htdocs" أو "www". هذا يأتي بعد اسم المجال الخاص بك.
- إذا كان هناك مجال فرعي ، قم بإنشائه لكل مجال فرعي
فيما يلي التنسيق الأساسي لملف robots.txt
وكيل المستخدم: [اسم وكيل المستخدم]
Disallow : [اسم سلسلة عنوان URL التي لا يتم الزحف إليها]
يُعرف هذا أساسًا باسم ملف robots.txt. يمكن أن يكون هناك العديد من خطوط المستخدم والتوجيهات. يمكن أن يكون أي شيء من السماح أو عدم السماح أو تأخير الزحف وما إلى ذلك
المصطلحات الفنية في ملف robots.txt:
هناك بعض الكلمات الشائعة المتعلقة بلغة robots.txt. تُعرف باسم بناء جملة robots.txt. هناك خمس كلمات رئيسية شائعة الاستخدام في ملف robots.txt. هم انهم:
وكيل المستخدم :
User-agent هو زاحف الويب أو محرك البحث الذي تقدم التعليمات إليه.
عدم السماح:
يعطي هذا الأمر تعليمات للزاحف بعدم الزحف إلى عنوان URL معين. يمكن لكل عنوان URL استخدام السطر الوحيد غير المسموح به.
السماح:
يستخدم هذا الأمر مع Google Bot فقط. بإعطاء هذا الأمر ، يمكن لـ Google bot الوصول إلى هذا المجلد الفرعي أو الصفحة حتى إذا كانت صفحتها الرئيسية غير مسموح بها.
تأخير الزحف:
يشير إلى وقت الانتظار قبل تحميل محتوى الصفحة والزحف إليه. لن يعمل مع Google bot ولكن يمكنك تعيين وقت لوحدة تحكم Google Search
خريطة الموقع:
يتم استخدامه لاستدعاء موقع أي خريطة موقع XML مرتبطة بعنوان URL. إنه مدعوم فقط من قبل Google و Yahoo و Bing و Ask.
هذه هي المصطلحات الأكثر شيوعًا التي يجب أن تعرفها في بنية ملف robot.txt. يمكنك الآن توقع الأمر بمجرد رؤية ملف robots.txt

ما الذي يجب تضمينه في ملف Robots.txt؟
يعطي Robot.txt تعليمات لروبوتات الويب حول الوصول إلى أي شيء أو عدم الوصول إليه. إذا كنت لا ترغب في عرض أي صفحة ويب للمستخدمين ، يمكنك توجيه الزاحف باستخدام ملف robots.txt. خلاف ذلك ، يمكنك حمايته باستخدام كلمة مرور. مثل هذا ، يمكنك إخفاء موقع أي مسؤول أو صفحات خاصة. يمنع زحف الروبوتات إلى تلك الصفحات الخاصة.
الآن دعنا نتحقق من كيفية القيام بذلك ببعض الأمثلة
- السماح بكل شيء وإرسال خريطة الموقع:
هذا خيار جيد لجميع المواقع. يسمح هذا لمحرك البحث بالزحف في كل مكان وفهرسة جميع البيانات. كما يسمح بعرض موقع XML بحيث يمكن للزاحف الوصول بسهولة إلى الصفحات الجديدة
وكيل المستخدم:*
السماح: /
# مرجع خريطة الموقع
خريطة الموقع: www.wordpress.com/sitemap.xml
- السماح بكل شيء ما عدا دليل فرعي واحد
في بعض الأحيان ستكون هناك منطقة في صفحتك لا تريد عرضها في نتائج البحث. يمكن أن يكون أي شيء مثل صورة أو منطقة تسجيل الخروج أو الملفات أو قسم التدقيق وما إلى ذلك. يمكنك عدم السماح بذلك
وكيل المستخدم: *
السماح: /
# دليل فرعي غير مسموح به
Disallow: / الخروج /
Disallow: / images /
Disallow: / تقرير التدقيق /
- السماح بكل شيء بصرف النظر عن ملفات معينة: -
قد ترغب أحيانًا في إظهار وسائط أو صورة على موقع الويب الخاص بك أو إظهار المستندات. لكنك لا تريدها أن تظهر في نتائج البحث. يمكنك إخفاء ملفات الرسوم المتحركة أو gifs أو pdf أو PHP كما هو موضح أدناه
وكيل المستخدم:*
السماح: /
#Disallow أنواع الملفات
عدم السماح: /*.gif$
Disallow: /*.pdf$
Disallow: /*.php$
- السماح بكل شيء بعيدًا عن صفحات ويب معينة: -
قد ترغب أحيانًا في إخفاء بعض الصفحات غير المناسبة للقراءة ، فقد يكون أي شيء من الشروط والأحكام الخاصة بك أو أي مواضيع حساسة لا تريد إظهارها للآخرين. يمكنك إخفاؤها على النحو التالي
وكيل المستخدم: *
السماح: /
#disallow صفحات الويب
Disallow: /terms.html
Disallow: / secret-list-of contacts.php
- السماح بكل شيء باستثناء أنماط معينة من عناوين URL
قد ترغب أحيانًا في عدم السماح بأنماط عناوين URL معينة. يمكن أن تكون صفحة اختبار أو أي صفحة بحث داخلية وما إلى ذلك
وكيل المستخدم: *
السماح: /
#disallow أنماط عناوين URL
عدم السماح: / * البحث =
Disallow: /*test.php$
في هذه الشروط المذكورة أعلاه ، وجدت العديد من الرموز والشخصيات. أنا هنا أشرح ما يعنيه كل منهم في الواقع
- يمثل رمز النجمة (*) أي عدد من الأحرف أو حرف واحد.
- يشير رمز الدولار ($) إلى نهاية عنوان URL. إذا نسيت وضعه ، فستحظر عددًا كبيرًا من عناوين URL بطريق الخطأ
ملاحظة : - احرص على عدم السماح بالمجال بالكامل. في بعض الأحيان يمكنك رؤية أمر مثل هذا
وكيل المستخدم: *
عدم السماح: /
هل تعرف ماذا يعني ذلك؟ أنت تقول أن محرك البحث لا يسمح بكامل المجال الخاص بك. لذلك ، لن يقوم بفهرسة أي من صفحات الويب الخاصة بك ولا يمكنك أن تكون في أي نتيجة بحث. لذا احرص على عدم وضع هذا عرضًا.
الاختبار النهائي:
من المهم التحقق مما إذا كان ملف robots.txt الخاص بك يعمل أم لا. حتى إذا كنت قد فعلت ذلك بشكل صحيح ، فمن المستحسن إجراء فحص مناسب
يمكنك استخدام أداة Google robots.txt لمعرفة ما إذا كان كل شيء على ما يرام مع ملفك. أولاً ، تحتاج إلى تسجيل الموقع حيث تقوم بتطبيق ملف robots.txt في أداة مشرفي المواقع من Google. بعد التسجيل قم بتسجيل الدخول إلى تلك الأداة واختر موقعك المحدد. الآن ، ستعرض لك Google جميع الملاحظات لإظهار الخطأ.
كيف تتحقق مما إذا كان موقعك يحتوي على ملف robot.txt؟
يمكنك التحقق من ذلك بسهولة. دعنا نأخذ المثال السابق للضغط على الكلمات. اكتب عنوان موقع الويب الخاص بك www.wordpress.com وأضف /robots.txt معه. على سبيل المثال ، www.wordpress.com/robots.txt. الآن ، يمكنك معرفة ما إذا كان موقعك يحتوي على ملف roborts.txt أم لا.
نصائح سريعة أخرى حول ملف robot.txt:
- إذا قمت بوضع ملف robots.txt في دليل المستوى الأعلى لموقع الويب ، فمن السهل أن تدون ذلك
- إذا منعت أي دليل فرعي ، فسيتم رفض أي ملف أو صفحة ويب داخل الدليل الفرعي
- يعتبر ملف robots.txt حساسًا لحالة الأحرف. يجب إدخاله كملف robots.txt. وإلا فلن يعمل
- قد يتجاهل بعض وكلاء المستخدم ملف robots.txt الخاص بك. قد تتجاهل بعض برامج الزحف مثل برامج كاشطات البريد الإلكتروني أو برامج الروبوت الخبيثة وما إلى ذلك هذا الملف
- /robots.txt متاح للجمهور. لذلك من الأفضل عدم إخفاء أي معلومات خاصة بالمستخدم. إذا قمت بإضافة /robots.txt إلى نهاية أي مجال جذر ، يمكنك رؤية الصفحات التي تريد الزحف إليها أو لا تريد الزحف إليها ، إذا كانت تحتوي على ملف robot.txt.
- يستغرق محرك البحث عدة أيام لتحديد عنوان URL غير مسموح به وإزالته من الفهرس الخاص به
- يستخدم كل نطاق فرعي في الجذر ملف robots.txt منفصل. على سبيل المثال ، يستخدم blog.wordpress.com و wordpress.com ملفات robots.txt منفصلة. على سبيل المثال ، blog.wordpress.com/robots.txt و wordpress.com/robots.txt
- من الأفضل إضافة موقع إلى أي خريطة موقع في الجزء السفلي من ملف robots.txt
هل لديك فكرة عن المفهوم؟ إنه أمر بسيط ، أليس كذلك؟ يمكنك تطبيق هذا على موقعك وتحسين أدائه. ليس من الضروري إظهار كل شيء على موقعك. يمكنك إخفاء صفحات المسؤول الخاصة بك أو الشروط والأحكام وما إلى ذلك من المستخدمين. سوف يساعدك ملف Robots.txt في ذلك. استخدمه بحكمة للإشارة إلى خريطة الموقع وجعل فهرسة موقعك أسرع.
لا يقتصر ملف Robot.txt على عدم السماح بالمحتويات أو الملفات غير المرغوب فيها. إنه ضروري جدًا لتنزيل أسرع أيضًا. يمكنك القيام بذلك بسهولة. لا يوجد شيء متعلق بالمعرفة التقنية للقيام بهذه المهمة. يمكن لأي شخص القيام بذلك بعد تحليل جيد للغاية. بعد تطبيق هذا لا تنس اختباره باستخدام أداة Google.robot.txt. يساعدك على تحديد ما إذا كانت هناك أي أخطاء في النص الذي أضفته أم لا.
من الضروري جدًا تحديث نفسك في جميع جوانب تحسين محركات البحث. نظرًا لأنك في سوق تحدث فيه تغييرات جديدة يوميًا ، يجب أن تعرف كل ما يحدث من حولك. حاول تنفيذ أحدث التقنيات لإنجاح موقعك بشكل كبير.
