Un ghid aprofundat în fișierul Robots.txt

Publicat: 2020-08-10

Robots.txt este un fișier foarte puternic care poate fi adăugat pe site-ul dvs. web pentru a vă ajuta să controlați ce zone din motoarele de căutare ale site-ului dvs. ar trebui să acceseze cu crawlere și care zone ar trebui ignorate. Este important să vă revizuiți robots.txt în mod regulat pentru a vă asigura că este actualizat și, dacă este posibil, să utilizați un instrument de monitorizare pentru a fi alertat când apar modificări.

La Semetrical, ca parte a ofertei noastre tehnice SEO, vom audita fișierul robots.txt al unui client atunci când efectuăm un audit tehnic al site-ului web al unui client pentru a verifica dacă căile care sunt blocate ar trebui să fie. În plus, dacă echipa SEO întâmpină probleme ca parte a procesului tehnic de audit SEO, cum ar fi duplicarea, noi reguli robots.txt pot fi scrise și adăugate la fișier.

Întrucât robots.txt este un fișier important, am creat un ghid care acoperă ceea ce este în cele din urmă, de ce îl poate folosi cineva și capcanele comune care pot apărea la scrierea regulilor.

Ce este un fișier robots txt?

Fișierul robots.txt este primul port de apel pentru un crawler atunci când vă accesează site-ul web. Este un fișier text care listează instrucțiuni pentru diferiți agenți de utilizator care, în esență, le spune crawlerilor web care părți ale unui site trebuie accesate cu crawlere și care ar trebui ignorate. Principalele instrucțiuni utilizate într-un fișier robots.txt sunt specificate printr-o regulă „permite” sau „interzice”.

Din punct de vedere istoric, o regulă „noindex” ar funcționa, de asemenea, în 2019, Google a încetat să mai susțină directiva noindex, deoarece era o regulă nepublicată.

Dacă fișierul nu este utilizat corespunzător, acesta poate fi dăunător pentru site-ul dvs. și ar putea provoca o scădere uriașă a traficului și a clasamentelor. De exemplu, greșelile pot apărea atunci când un întreg site este blocat de motoarele de căutare sau o secțiune a unui site este blocată din greșeală. Când se întâmplă acest lucru, clasamentele conectate la acea parte a site-ului vor scădea treptat, iar traficul va scădea la rândul său.

Chiar aveți nevoie de un fișier robots.txt?

Nu, nu este obligatoriu să aveți un robot.txt pe site-ul dvs. web, în special pentru site-urile mici cu adrese URL minime, dar este foarte recomandat pentru site-urile medii până la mari. Pe site-urile mari, este mai ușor să controlați ce părți ale site-ului dvs. sunt accesibile și ce secțiuni ar trebui blocate de crawlerele. Dacă fișierul nu există, site-ul dvs. va fi, în general, accesat cu crawlere și indexat ca de obicei.

Pentru ce este folosit în principal fișierul robots txt?

Robots.txt are multe cazuri de utilizare, iar la Semetrical l-am folosit pentru scenariile de mai jos:

Blocarea rezultatelor căutării interne, deoarece aceste pagini nu sunt de obicei valoroase pentru un crawler și poate provoca o mulțime de dublari pe un site web.
Blocarea unor părți ale navigării pe fațete dacă anumite fațete nu sunt valoroase din perspectiva SEO, dar sunt totuși necesare pentru UX atunci când un utilizator se află pe site-ul dvs.
Blocarea diferitelor niveluri de navigare cu fațete, unde un nivel de fațetă poate fi util pentru motoarele de căutare, dar atunci când combinați două filtre de fațete diferite, acestea pot deveni irelevante pentru ca un motor de căutare să le acceseze cu crawlere și să le indexeze.
Blocarea parametrilor care provoacă dublarea sau irosesc bugetul de accesare cu crawlere. Acest lucru este ușor controversat, deoarece alții vă pot spune să nu blocați parametrii în robots.txt, dar acest lucru a funcționat pe o serie de site-uri web ale clienților noștri unde sunt necesari parametri, dar crawlerele nu trebuie să le acceseze cu crawlere. Este foarte recomandat să verificați dacă orice parametru pe care îl blocați nu are legături valoroase sau se clasifică pentru orice cuvinte cheie valoroase care aduc trafic.
Blocarea secțiunilor private ale unui site web, cum ar fi paginile de plată și secțiunile de conectare.
Includerea locațiilor din hărțile dvs. de site XML pentru a facilita accesarea crawlerilor la toate adresele URL de pe site-ul dvs. web.
Pentru a permite numai anumitor roboți să acceseze și să acceseze cu crawlere site-ul dvs.
Blocarea conținutului generat de utilizatori care nu poate fi moderat.

Unde să pui un text robots și cum să-l adaugi pe site-ul tău?

Un fișier robots.txt trebuie plasat la rădăcina site-ului dvs. web, de exemplu, pe site-ul Semetrical se află la www.semetrical.com/robots.txt și trebuie să fie numit robots.txt. Un site web poate avea un singur robots.txt și trebuie să fie într-un fișier text codificat UTF-8 care să includă ASCII.

Dacă aveți subdomenii precum blog.example.com, atunci robots.txt se poate afla la rădăcina subdomeniului, cum ar fi blog.example.com/robots.txt.

Cum arată un fișier robots.txt?

Un fișier robots.txt tipic ar fi format din diferite componente și elemente care includ:

Agent utilizator
Nu permiteți
Permite
Întârziere de accesare cu crawlere
Harta site-ului
Comentarii (Ocazional puteți vedea asta)

Mai jos este un exemplu de Semetrcals robots.txt care include un user-agent, reguli de interdicție și o hartă a site-ului.

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /comments/feed/ Disallow: /trackback/ Disallow: /index.php/ Disallow: /xmlrpc.php Disallow: /blog-documentation/ Disallow: /test/ Disallow: /hpcontent/ Sitemap: https://devsemetrical.wpengine.com/sitemap.xml

Agent utilizator

Agentul utilizator definește începutul unui grup de directive. Adesea este reprezentat cu un wildcard (*) care semnalează că instrucțiunile de mai jos sunt pentru toți roboții care vizitează site-ul. Un exemplu în acest sens ar fi:

Agent utilizator: *

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/

Vor exista ocazii în care s-ar putea să doriți să blocați anumiți roboți sau să permiteți doar anumitor roboți să acceseze anumite pagini. Pentru a face acest lucru, trebuie să specificați numele boților ca agent utilizator. Un exemplu în acest sens ar fi:

 User-agent: AdsBot-Google Disallow: /checkout/reserve Disallow: /resale/checkout/order Disallow: /checkout/reserve_search

Agenții utilizator obișnuiți de care trebuie să fiți conștienți includ:

Există, de asemenea, posibilitatea de a bloca un anumit software de la accesarea cu crawlere a site-ului dvs. web sau de a întârzia câte adrese URL pot accesa cu crawlere o secundă, deoarece fiecare instrument va avea propriii agenți de utilizator care accesează cu crawlere site-ul dvs. De exemplu, dacă doriți să blocați SEMRush sau Ahrefs să acceseze cu crawlere site-ul dvs., următoarele vor fi adăugate la fișierul dvs.:

 User-agent: SemrushBot Disallow: * User-agent: AhrefsBot Disallow: *

Dacă doriți să amânați numărul de adrese URL accesate cu crawlere, regulile de mai jos vor fi adăugate la fișierul dvs.:

 User-agent: AhrefsBot Crawl-Delay: [value] User-agent: SemrushBot Crawl-Delay: [value]

Disallow directivă

Directiva disallow este o regulă pe care un utilizator o poate introduce în fișierul robots.txt care îi va spune unui motor de căutare să nu acceseze cu crawlere o anumită cale sau un set de adrese URL, în funcție de regula creată. În fișier pot exista una sau mai multe rânduri de reguli de respingere, deoarece este posibil să doriți să blocați mai multe secțiuni ale unui site web.

Dacă o directivă disallow este goală și nu specifică nimic, atunci roboții pot accesa cu crawlere întregul site web, așa că pentru a bloca anumite căi sau întregul site web, trebuie să specificați un prefix URL sau o bară oblică „/”. De exemplu, în exemplul de mai jos, blocăm orice adresă URL care rulează pe calea /cgi-bin/ sau /wp-admin/.

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/

Dacă doriți să blocați întregul site de la roboți precum Google, atunci ar trebui să adăugați o directivă de respingere urmată de o bară oblică. În mod obișnuit, este posibil să fie necesar să faceți acest lucru doar într-un mediu de realizare provizorie atunci când nu doriți ca site-ul web de punere în scenă să fie găsit sau indexat. Un exemplu ar arăta astfel:

 User-agent: * Disallow: /

Permite directivă

Majoritatea motoarelor de căutare vor respecta directiva de autorizare, în cazul în care aceasta va contracara o directivă de respingere. De exemplu, dacă ar fi să blocați /wp-admin/, de obicei, ar bloca toate adresele URL care rulează pe acea cale, totuși, dacă există o regulă de permis pentru /wp-admin/admin-ajax.php, roboții vor accesa cu crawlere / admin-ajax.php dar blocați orice altă cale care rulează pe /wp-admin/. Vezi exemplul de mai jos:

 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php

Întârziere accesare cu crawlere

Directiva de întârziere a accesării cu crawlere ajută la încetinirea ratei de accesare cu crawlere a site-ului dvs. de către un robot. Nu toate motoarele de căutare vor respecta directiva privind întârzierea accesării cu crawlere, deoarece este o regulă neoficială.

– Google nu va urma această directivă

– Baidu nu va urma această directivă

– Bing și Yahoo acceptă directiva de întârziere a accesului cu crawlere, în care regula îi cere botului să aștepte „n” secunde după o acțiune de accesare cu crawlere.

– Yandex acceptă, de asemenea, directiva de întârziere a accesului cu crawlere, dar interpretează regula ușor diferit, unde vă va accesa site-ul doar o dată la fiecare „n” secunde”.

Un exemplu de directivă de întârziere a accesului cu crawlere de mai jos:

 User-agent: BingBot Disallow: /wp-admin/ Crawl-delay: 5

Directiva Sitemap

Directiva sitemap poate spune motoarelor de căutare unde să găsească sitemap-ul dvs. XML și facilitează găsirea adreselor URL pe site-ul dvs. de către diferite motoare de căutare. Principalele motoare de căutare care vor urma această directivă includ Google, Bing, Yandex și Yahoo.

Se recomandă să plasați directiva sitemap în partea de jos a fișierului robots.txt. Un exemplu în acest sens este mai jos:

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /comments/feed/ Sitemap: https://devsemetrical.wpengine.com/sitemap.xml

Comentarii

Un fișier robots.txt poate include comentarii, dar prezența comentariilor este doar pentru oameni și nu pentru roboți, deoarece orice lucru după un hashtag va fi ignorat. Comentariile pot fi utile din mai multe motive care includ:

– Oferă un motiv pentru care sunt prezente anumite reguli

– Referințe care au adăugat regulile

– Referințe pentru care părți ale unui site sunt destinate regulilor

– Explică ce fac regulile

– Mai jos sunt prezentate exemple de comentarii în diferite fișiere robots.txt:

 #Student Disallow: /student/*-bed-flats-* Disallow: /student/*-bed-houses* Disallow: /comments/feed/ #Added by Semetrical Disallow: /jobs*/full-time/* Disallow: /jobs*/permanent/* #International Disallow: */company/fr/* Disallow: */company/de/*

Este importantă ordinea regulilor?

Ordinea regulilor nu este importantă, cu toate acestea, atunci când mai multe reguli de permis și de interzicere se aplică unei adrese URL, cea mai lungă regulă de cale de potrivire este cea care este aplicată și are prioritate față de regula mai scurtă, mai puțin specifică. Dacă ambele căi au aceeași lungime, atunci va fi utilizată regula mai puțin restrictivă. Dacă aveți nevoie ca o anumită cale URL să fie permisă sau interzisă, puteți prelungi regula utilizând „*” pentru a face șirul mai lung. De exemplu, Disallow: ********/make-longer

Pe propriul site web Google au enumerat un exemplu de set de situații care arată regula de prioritate care are prioritate. Tabelul de mai jos a fost preluat de la Google.

Cum să vă verificați fișierul robots.txt?

Este întotdeauna important să verificați și să validați fișierul dvs. robots.txt înainte de a-l pune live, deoarece regulile incorecte pot avea un impact mare asupra site-ului dvs. web.

Cel mai bun mod de a testa este să accesați instrumentul de testare robots.txt din Search Console și să testați diferite adrese URL care ar trebui să fie blocate cu regulile existente. Aceasta este, de asemenea, o modalitate excelentă de a testa orice reguli noi pe care doriți să le adăugați la fișier.

Exemple de utilizare a expresiilor regulate în robots.txt

Când creați reguli în fișierul robots.txt, puteți utiliza potrivirea modelelor pentru a bloca o serie de adrese URL într-o singură regulă de interzicere. Expresiile regulate pot fi folosite pentru a face potrivirea modelelor, iar cele două personaje principale pe care Google și Bing le respectă includ:

Semnul dolar ($) care se potrivește la sfârșitul unei adrese URL
Asterisc (*) care este o regulă wildcard care reprezintă orice succesiune de caractere.

Exemple de potrivire a modelelor la Semetrical:

 Disallow: */searchjobs/*

Aceasta va bloca orice URL care include calea /searchjobs/, cum ar fi: www.example.com/searchjobs/construction. Acest lucru era necesar pentru un client, deoarece secțiunea de căutare a site-ului său trebuia blocată, astfel încât motoarele de căutare să nu acceseze cu crawlere și să indexeze acea secțiune a site-ului.

 Disallow: /jobs*/full-time/*

Acest lucru va bloca adresele URL care includ o cale după /jobs/ urmată de /full-time/, cum ar fi

www.example.com/jobs/admin-secretarial-and-pa/full-time/

. În acest scenariu, avem nevoie de normă întreagă ca filtru pentru UX, dar pentru motoarele de căutare nu este nevoie ca o pagină să fie indexată pentru a satisface „titlul postului” + „normă întreagă”.

 Disallow: /jobs*/*-000-*-999/*

Aceasta va bloca adresele URL care includ filtre salariale, cum ar fi

www.example.com/jobs/city-of-bristol/-50-000-59-999/

. În acest scenariu avem nevoie de filtre salariale, dar nu a fost nevoie ca motoarele de căutare să acceseze cu crawlere paginile de salarii și să le indexeze.

 Disallow: /jobs/*/*/flexible-hours/

Acest lucru va bloca adresele URL care includ ore flexibile și includ două căi de fațete între ele. În acest scenariu, am găsit prin cercetarea cuvintelor cheie că utilizatorii pot căuta locație + ore flexibile sau loc de muncă + ore flexibile, dar utilizatorii nu ar căuta „titlu post” + „locație” + „orar flexibil”. Un exemplu de adresă URL arată ca

www.example.com/jobs/admin-secretarial-and-pa/united-kingdom/flexible-hours/

 Disallow: */company/*/*/*/people$

Aceasta va bloca o adresă URL care include trei căi între companie și oameni, precum și adresa URL care se termină cu persoane. Un exemplu ar fi

www.example.com/company/gb/04905417/company-check-ltd/people

 Disallow: *?CostLowerAsNumber=*

Această regulă ar bloca un filtru de parametri care a ordonat prețul.

 Disallow: *?Radius=* Disallow: *?radius=*

Aceste două reguli au blocat roboții să acceseze cu crawlere o adresă URL de parametru care a modificat raza căutării utilizatorilor. A fost adăugată o regulă atât cu majuscule, cât și cu litere mici, deoarece site-ul includea ambele versiuni.

Lucruri de care trebuie să știți cu robots.txt

Robots.txt face distincție între majuscule și minuscule, așa că trebuie să utilizați majusculele corecte în regulile dvs. De exemplu, /hello/ va fi tratat diferit față de /Hello/.
Pentru ca motoarele de căutare, cum ar fi Google, să re-memoreze mai rapid fișierul robots.txt pentru a găsi reguli noi, puteți inspecta adresa URL robots.txt în Search Console și puteți solicita indexarea.
Dacă site-ul dvs. se bazează pe un fișier robots.txt cu un număr de reguli și adresa URL robots.txt furnizează un cod de stare 4xx pentru o perioadă prelungită de timp, regulile vor fi ignorate și paginile care au fost blocate vor deveni indexabile. Este important să vă asigurați că difuzează întotdeauna un cod de stare 200.
Dacă site-ul dvs. este oprit, asigurați-vă că robots.txt returnează un cod de stare 5xx, deoarece motoarele de căutare vor înțelege că site-ul este oprit pentru întreținere și vor reveni să acceseze cu crawlere site-ul la o dată ulterioară.
Când adresele URL sunt deja indexate și apoi se adaugă pe site-ul dvs. o interdicție pentru a elimina acele adrese URL din index, poate dura ceva timp până când acele adrese URL să fie eliminate și eliminate. În plus, adresele URL pot rămâne în index pentru o perioadă, dar metadescrierea va afișa un mesaj precum „O descriere pentru acest rezultat nu este disponibilă din cauza robots.txt al acestui site – aflați mai multe”.
O regulă de respingere robots.txt nu garantează întotdeauna că o pagină nu va apărea în rezultatele căutării, deoarece Google poate decide totuși, pe baza unor factori externi, cum ar fi linkurile primite, că este relevantă și ar trebui indexată.
Dacă aveți o regulă de respingere în vigoare și, de asemenea, plasați o etichetă „fără index” în codul sursă al unei pagini, „fără index” va fi ignorată, deoarece motoarele de căutare nu pot accesa pagina pentru a descoperi eticheta „fără index”.
O regulă de interzicere a paginilor indexate, în special a celor cu link-uri de intrare, înseamnă că veți pierde echitatea link-urilor acelor backlink-uri care altfel ar fi transmise în beneficiul altor pagini. Acesta este motivul pentru care este important să verificați dacă paginile au backlink înainte de a adăuga o regulă de interzicere.
Dacă bara oblică principală din cale lipsește atunci când scrieți o regulă de permis sau de respingere, atunci regula va fi ignorată. De exemplu, „Disallow: searchjobs.

Dacă doriți să vorbiți cu unul dintre specialiștii noștri tehnici SEO de la Semetrical, vă rugăm să vizitați pagina noastră de servicii tehnice SEO pentru mai multe informații.