Ghid definitiv pentru Robots.txt pentru SEO

Publicat: 2021-12-29

Robots.txt este un fișier pe care îl puteți crea pentru a controla accesarea cu crawlere a site-ului dvs. web.

Este implementarea practică a protocolului de excludere a roboților, care a fost creat pentru a împiedica crawlerele web să copleșească site-urile web cu prea multe solicitări.

Poate fi incomod pentru proprietarii de servicii dacă crawlerele vizitează întreg spațiul lor URI. Acest document specifică regulile definite inițial de „Protocolul de excludere a robotilor” pe care se așteaptă să le respecte crawlerele atunci când accesează URI-uri.
sursa: Robots Exclusion Protocol

Chiar dacă nu este necesar ca site-ul dvs. să folosească robots.txt , a avea unul poate afecta pozitiv afacerea dvs. prin optimizarea modului în care roboții motoarelor de căutare vă accesează site-ul.

Conform Almanahului web 2021, ~16,5% dintre site-uri web nu au deloc un fișier robots.txt. În plus, nu toată lumea îl implementează corect.

Site-urile web pot avea fișiere robots.txt configurate greșit. De exemplu, unele site-uri web populare blocau (probabil în mod eronat) motoarele de căutare. Google poate menține aceste site-uri web indexate pentru o perioadă de timp, dar în cele din urmă vizibilitatea lor în rezultatele căutării va fi diminuată.
sursa: Web Almanah

În funcție de dimensiunea site-ului dvs., utilizarea necorespunzătoare a robots.txt poate fi o greșeală minoră sau una foarte costisitoare.

Acest articol vă va arăta cum să creați un fișier robots.txt și să evitați potențialele greșeli.

Conținutul ascunde
1 Ce este robots.txt?
1.1 1. O pagină care este blocată de accesare cu crawlere ar putea fi în continuare indexată
1.2 2. Nu puteți forța roboții să respecte regulile din robots.txt
2 De ce aveți nevoie de un fișier robots.txt?
3 Cum se modifică fișierul robots.txt
4 Sintaxă Robots.txt
4.1 User-agent
4.2 Directive
4.2.1 Interzicerea
4.2.2 Permite
4.2.3 Harta site -ului
4.2.4 Întârziere de crawl
4.2.5 Comentarii în robots.txt
4.2.6 Wildcards
5 Testarea fișierului robots.txt
6 Robots.txt vs. Meta Robots Tag vs. X-Robots-Tag
7 Cele mai bune practici

Ce este robots.txt?

Robots.txt este un fișier text simplu pe care îl puteți plasa pe serverul dvs. pentru a controla modul în care roboții vă accesează paginile. Conține reguli pentru crawler-uri, care definesc ce pagini ar trebui sau nu ar trebui accesate cu crawlere.

Fișierul ar trebui să fie localizat în directorul rădăcină al site-ului dvs. Deci, de exemplu, dacă site-ul dvs. se numește domain.com, fișierul robots.txt ar trebui să fie disponibil la domain.com/robots.txt.

Dar cum funcționează fișierul? Cum îl descoperă boții?

Crawlerele sunt programe care accesează cu crawlere web. Au diverse utilizări, dar motoarele de căutare le folosesc pentru a găsi conținut web de indexat. Acest proces poate fi împărțit în câțiva pași:

  1. Crawlerele au o coadă de adrese URL care conțin atât site-uri web noi, cât și cele cunoscute anterior, pe care doresc să le acceseze cu crawlere.
  2. Înainte de a accesa cu crawlere un site web, crawlerele caută mai întâi un fișier robots.txt în directorul rădăcină al site-ului.
  3. Dacă nu există niciun fișier robots.txt, crawlerele continuă să acceseze cu crawlere site-ul web în mod liber. Cu toate acestea, dacă există un fișier robots.txt valid, crawlerele caută în interiorul acestuia directivele și procedează la accesarea cu crawlere a site-ului web în consecință.

Dacă un motor de căutare nu poate accesa cu crawlere pagina, atunci pagina respectivă nu poate fi indexată și, în consecință, nu va apărea pe paginile cu rezultatele căutării.

Cu toate acestea, există două avertismente:

1. O pagină care este blocată de accesare cu crawlere ar putea fi în continuare indexată

Interzicerea accesării cu crawlere într-un fișier robots.txt nu garantează că motoarele de căutare nu vor indexa pagina. S-ar putea să o facă în continuare dacă găsesc informații despre conținut în alte surse și decid că este una importantă. De exemplu, pot găsi link-uri care duc la pagină de pe alte site-uri, pot folosi textul ancora și îl pot afișa pe pagina cu rezultatele căutării.

2. Nu puteți forța roboții să respecte regulile din robots.txt

Robots.txt este doar un ghid, nu o regulă obligatorie. Nu poți forța roboții să se supună. Majoritatea crawlerelor, în special cele utilizate de motoarele de căutare, nu vor accesa cu crawlere paginile blocate de robots.txt. Cu toate acestea, motoarele de căutare nu sunt singurele care folosesc crawlerele. Boții rău intenționați pot ignora instrucțiunile și pot accesa paginile oricum. De aceea, nu ar trebui să utilizați robots.txt ca o modalitate de a proteja datele sensibile de pe site-ul dvs. web împotriva accesării cu crawlere. Dacă trebuie să vă asigurați că roboții nu vor accesa cu crawlere o parte din conținutul dvs., este mai bine să îl protejați cu o parolă.

De ce aveți nevoie de un fișier robots.txt?

Robots.txt nu este o parte obligatorie a site-ului dvs., dar unul bine optimizat poate beneficia site-ul dvs. în multe feluri.

Cel mai important, vă poate ajuta să vă optimizați bugetul de accesare cu crawlere. Boții motoarelor de căutare au resurse limitate, limitând numărul de adrese URL pe care le pot accesa cu crawlere pe un anumit site web. Deci, dacă irosești bugetul de accesare cu crawlere pe pagini mai puțin importante, s-ar putea să nu fie suficient pentru cele mai valoroase. Dacă aveți un site web mic, aceasta ar putea părea o problemă superficială, dar oricine întreține un site web mare știe cât de vital este să utilizeze eficient resursele roboților motoarelor de căutare.

Cu fișierul robots.txt, puteți împiedica accesarea cu crawlere a anumitor pagini, de exemplu, cele de calitate scăzută . Este esențial pentru că, dacă aveți multe pagini indexabile, de calitate scăzută, ar putea afecta întregul site și poate descuraja roboții motoarelor de căutare să acceseze cu crawlere chiar și paginile de înaltă calitate.

În plus, robots.txt vă permite să specificați locația sitemap-ului dvs. XML. O hartă a site-ului este un fișier text care listează adresele URL pe care doriți să le indexeze motoarele de căutare. Definirea legăturii sale în fișierul robots.txt facilitează găsirea acesteia de către roboții motoarelor de căutare.

Cum se modifică fișierul robots.txt

Modul în care vă puteți modifica fișierul robots.txt depinde în mare măsură de sistemul pe care îl utilizați.

Dacă utilizați un CMS sau o platformă de comerț electronic, este posibil să aveți acces la instrumente sau plugin-uri dedicate care vă pot ajuta să accesați și să modificați fișierul cu ușurință. De exemplu, Wix și Shopify vă permit să editați direct robots.txt. Pentru WordPress, puteți folosi pluginuri precum Yoast SEO.

Dacă nu utilizați un CMS sau o platformă de comerț electronic, poate fi necesar să descărcați mai întâi fișierul, să îl editați și apoi să îl încărcați înapoi pe site-ul dvs.

Puteți descărca fișierul în diferite moduri:

  • Afișați fișierul în browser adăugând „/robots.txt” în directorul rădăcină și apoi pur și simplu copiați conținutul.
  • Utilizați instrumentele oferite de serviciul dvs. de găzduire. De exemplu, ar putea fi un panou dedicat pentru gestionarea fișierelor sau accesul prin protocolul FTP.
  • Utilizați instrumente de consolă precum cURL pentru a descărca fișierul tastând această comandă:
 curl https://example.com/robots.txt -o robots.txt
  • Utilizați testere robots.txt de la Google sau Bing pentru a descărca o copie a fișierului dvs.

După ce descărcați robots.txt, îl puteți edita pur și simplu în editorul de text dorit, cum ar fi Notepad (Windows) sau TextEdit (Mac). Asigurați-vă că codificați fișierul în standardul UTF-8 și amintiți-vă că trebuie să fie numit „robots.txt”.

După modificarea fișierului robots.txt, puteți încărca fișierul în mod similar cu descărcarea acestuia. Puteți utiliza instrumente dedicate furnizate de găzduirea dvs., puteți utiliza instrumente încorporate CMS sau puteți trimite fișiere direct către server prin protocoalele FTP.

Odată ce fișierul dvs. este disponibil public, motoarele de căutare îl pot găsi automat. Dacă dintr-un motiv oarecare, doriți ca motoarele de căutare să vadă modificările imediat, puteți utiliza opțiunea Trimitere în testere robots.txt de la Google și Bing.

În timpul procesului de accesare cu crawlere automată, crawlerele Google observă modificările pe care le-ați făcut fișierului dvs. robots.txt și actualizează versiunea stocată în cache la fiecare 24 de ore. Dacă trebuie să actualizați mai rapid memoria cache, utilizați funcția de trimitere a robots.txt Tester .
sursa: Google

Sintaxa Robots.txt

Robots.txt este format din blocuri de text. Fiecare bloc începe cu un șir User-agent și grupează directive (reguli) pentru un anumit bot.

Iată un exemplu de fișier robots.txt:

 Agent utilizator: *
Nu permiteți: /admin/
Nu permiteți: /utilizatori/

#instrucțiuni specifice pentru Googlebot
Agent utilizator: Googlebot
Permite: /wp-admin/
Nu permiteți: /utilizatori/

#instrucțiuni specifice pentru Bingbot
Agent utilizator: Bingbot
Nu permiteți: /admin/
Nu permiteți: /utilizatori/
Disallow:/nu-pentru-Bingbot/
Întârziere crawler: 10

Harta site-ului: https://www.example.com/sitemap.xml

Agent utilizator

Există sute de crawler-uri care ar putea dori să acceseze site-ul dvs. web. De aceea, ați putea dori să definiți limite diferite pentru ei în funcție de intențiile lor. Iată când User-agent poate fi util.

User-agent este un șir de text care identifică un anumit bot. Deci, de exemplu, Google folosește Googlebot, Bing folosește Bingbot, DuckDuckGo folosește DuckDuckBot și Yahoo folosește Slurp. Motoarele de căutare pot avea, de asemenea, mai mult de un User-agent. Aici puteți găsi o listă completă de agenți de utilizator utilizați de Google și Bing.

User-agent este o linie necesară în fiecare grup de directive. Poți să te gândești la asta ca apelând roboții după numele lor și oferindu-le fiecăruia dintre ei o instrucțiune specifică. Toate directivele care urmează unui User-agent vor fi îndreptate către botul definit până când este specificat noul User-agent.

De asemenea, puteți utiliza un wildcard și puteți da instrucțiuni tuturor roboților simultan. Voi acoperi wildcard-urile mai târziu.

Directive

Directivele sunt regulile pe care le definiți pentru roboții motoarelor de căutare. Fiecare bloc de text poate avea una sau mai multe directive. Fiecare directivă trebuie să înceapă într-o linie separată.

Directivele includ:

  • nu permite,
  • Permite,
  • Harta site-ului,
  • Întârzierea târârii.

Notă: Există, de asemenea, o directivă noindex neoficială care ar trebui să indice că o pagină nu ar trebui să fie indexată. Cu toate acestea, majoritatea motoarelor de căutare, inclusiv Google și Bing, nu îl acceptă. Dacă nu doriți ca unele pagini să fie indexate, folosiți noindex Meta Robots Tag sau antetul X-Robots-Tag (le voi explica mai târziu în articol).

Nu permiteți

 Agent utilizator: Googlebot
Nu permiteți: /utilizatori/

Această directivă specifică paginile care nu trebuie accesate cu crawlere. În mod implicit, roboții motoarelor de căutare pot accesa cu crawlere fiecare pagină care nu este blocată de directiva disallow.

Pentru a bloca accesul la o anumită pagină, trebuie să definiți calea acesteia în raport cu directorul rădăcină.

Să ne imaginăm că aveți aceste două site-uri pe site-ul dvs.:

  • website.com/products/shoes/item1.html
  • website.com/products/shirts/item2.html

Acum să ne uităm la câteva exemple de blocare a acestor căi:

cale Blocat
Nu permiteți: /item1.html Numai /products/shoes/item1.html este interzis
Nu permiteți: /produse/ Atât /products/shoes/item1.html cât și /products/shirts/item2.html sunt interzise

Puteți interzice accesarea cu crawlere a întregului site adăugând simbolul „/” în felul următor:

 Agent utilizator: Googlebot
Nu permite: /

Permite

 Agent utilizator: Googlebot
Nu permiteți: /utilizatori/
Permite: /users/very-important-user.html

Puteți utiliza directiva allow pentru a permite accesarea cu crawlere a unei pagini într-un director altfel interzis.

În exemplul de mai sus, toate paginile din directorul /utilizator/ sunt interzise, ​​cu excepția uneia numită /very-important-user.html.

Harta site-ului

 Harta site-ului: https://website.com/sitemap.xml

Directiva sitemap specifică locația sitemap-ului dvs. Puteți să-l adăugați la începutul sau la sfârșitul fișierului și să definiți mai multe hărți de site.

Spre deosebire de căile definite în alte directive, adăugați întotdeauna o adresă URL completă a hărții dvs. de site, inclusiv protocolul HTTP/HTTPS sau versiunea www/non-www.

Directiva sitemap nu este necesară, dar este foarte recomandată. Chiar dacă ați trimis harta site-ului în Google Search Console sau Bing Webmaster Tools, este întotdeauna o idee bună să o adăugați în fișierul dvs. robots.txt pentru a ajuta toți roboții motoarelor de căutare să o găsească mai repede.

Întârzierea târârii

 Întârziere crawler: 10

Boții motoarelor de căutare pot accesa cu crawlere multe dintre paginile dvs. într-o perioadă scurtă de timp. Fiecare accesare cu crawlere utilizează o parte din resursa serverului dvs.

Dacă aveți un site web mare, cu multe pagini, sau deschiderea fiecărei pagini necesită o mulțime de resurse de server, este posibil ca serverul dvs. să nu poată face față tuturor solicitărilor. Ca urmare, acesta va deveni supraîncărcat și atât utilizatorii, cât și motoarele de căutare ar putea pierde temporar accesul la site-ul dvs. Acolo poate fi utilă directiva Crawl-delay și poate încetini procesul de crawling.

Valoarea directivei Crawl-delay este definită în secunde. Puteți seta între 1-30 de secunde.

Este important să rețineți că nu orice motor de căutare urmează această directivă. De exemplu, Google nu acceptă deloc întârzierea cu crawl.

În plus, interpretarea acestuia poate varia în funcție de motorul de căutare. De exemplu, pentru Bing și Yahoo, Crawl-delay reprezintă lungimea unei ferestre în timpul căreia botul poate accesa pagina o singură dată.

Pentru Yandex, Crawl-delay specifică perioada de timp pe care botul trebuie să aștepte înainte de a solicita o altă pagină.

Comentarii în robots.txt

 #Blochează accesul la secțiunea de blog
Agent utilizator: Googlebot
Nu permiteți: /blog/

Agent utilizator: Bingbot
Interziceți: /users/ #blochează accesul la secțiunea utilizatori

Puteți adăuga comentarii în fișierul robots.txt adăugând caracterul hash # la începutul unei linii sau după o directivă. Motoarele de căutare ignoră tot ce urmează pe # în aceeași linie.

Comentariile sunt destinate oamenilor pentru a explica ce înseamnă o anumită secțiune. Este întotdeauna o idee bună să le adăugați, deoarece vă vor permite să înțelegeți mai repede ce se întâmplă data viitoare când deschideți fișierul.

Puteți folosi comentarii pentru a adăuga ouă de Paște în fișierul robots.txt. Dacă doriți să aflați mai multe despre aceasta, puteți consulta articolul nostru despre a face directivele roboților distractive pentru oameni sau puteți vedea un exemplu în robots.txt.

Wildcards

Wildcardurile sunt caractere speciale care pot funcționa ca substituenți pentru alte simboluri din text și, prin urmare, simplifică procesul de creare a fișierului robots.txt. Ei includ:

  • Asterisc * și
  • Semnul dolarului $.

Asteriscul poate înlocui orice șir.

Agent utilizator: *

În exemplul de mai sus, asteriscul din linia User-agent specifică toți roboții motoarelor de căutare. Prin urmare, fiecare directivă care o urmează, va fi îndreptată către toți crawlerii.

 Disallow: /*?

De asemenea, îl puteți folosi pentru a defini o cale. Exemplele de mai sus înseamnă că fiecare adresă URL care se termină cu „?” este interzisă.

Semnul dolar indică un element specific care se potrivește la sfârșitul unei adrese URL.

 Nu permiteți: /*.jpeg$

Exemplul de mai sus indică faptul că fiecare adresă URL care se termină cu „.jpeg” ar trebui să fie interzisă.

Puteți folosi metacaracterele în fiecare directivă, cu excepția sitemap-ului.

Testarea fișierului robots.txt

Puteți testa cu un tester robots.txt în Google Search Console și Bing Webmaster Tools. Pur și simplu introduceți adresa URL pe care doriți să o verificați, iar instrumentul vă va arăta dacă este permis sau interzis.

De asemenea, puteți edita fișierul direct în testere robots.txt și puteți testa din nou modificările. Rețineți că modificările nu sunt salvate pe site-ul dvs. web. Trebuie să copiați fișierul și să-l încărcați pe site-ul dvs. pe cont propriu.

Dacă sunteți mai priceput la tehnologie, puteți utiliza și biblioteca open-source robots.txt de la Google pentru a testa fișierul robots.txt local pe computerul dvs.

Robots.txt vs. Meta Robots Tag vs. X-Robots-Tag

Robots.txt nu este singura modalitate de a comunica cu crawlerele. De asemenea, puteți utiliza Meta Robots Tag și X-Robots-Tag.

Cea mai importantă diferență este faptul că robots.txt controlează accesarea cu crawlere a unui site web, în ​​timp ce Meta Robots Tag și X-Robots-Tag vă permit să controlați indexarea acestuia.

Printre altele, aceste metode diferă și în modurile de implementare.

Implementarea
Robots.txt Fișier text simplu adăugat la directorul rădăcină al site-ului dvs. web.
Etichetă meta roboți Etichetă HTML adăugată în secțiunea <head> a codului.
X-Roboți-Tag Parte dintr-un antet de răspuns HTTP adăugat pe partea serverului.

Când un robot robot de motor de căutare găsește o pagină, va căuta mai întâi în fișierul robots.txt. Dacă crawlingul nu este interzis, poate accesa site-ul web și numai atunci poate găsi potențiale Meta Robots Tags sau X-Robots-Tag antete. Este important de reținut din două motive:

  1. Combinarea metodelor – roboții motoarelor de căutare trebuie să aibă voie să acceseze cu crawlere pagina pentru a vedea eticheta Meta Robots și X-Robots-Tag. Dacă roboții nu pot accesa pagina, ei nu vor funcționa corect.
  2. Optimizarea bugetului de accesare cu crawlere – dintre aceste trei metode, numai robots.txt vă poate ajuta să economisiți bugetul de accesare cu crawlere.

Cele mai bune practici

Iată câteva dintre cele mai bune practici și sfaturi în timpul creării unui fișier robots.txt:

  • Nu blocați fișierele JavaScript sau CSS folosind robots.txt. Boții ar putea să nu vă redeze corect conținutul dacă nu pot accesa aceste resurse.
  • Asigurați-vă că adăugați linkul la harta site-ului dvs. pentru a ajuta toți roboții motoarelor de căutare să-l găsească cu ușurință.
  • Interpretarea sintaxei robots.txt poate diferi în funcție de motorul de căutare. Verificați întotdeauna modul în care un robot robot de motor de căutare tratează o anumită directivă dacă nu sunteți sigur.
  • Fiți atenți când utilizați metacaracterele. Dacă le folosiți greșit, este posibil să blocați accesul la întreaga secțiune a site-ului dvs. din greșeală.
  • Nu utilizați robots.txt pentru a vă bloca conținutul privat. Dacă doriți să vă securizați pagina, este mai bine să o protejați cu o parolă. În plus, fișierul robots.txt este accesibil public și ați putea dezvălui locația conținutului dvs. privat către roboții periculoși.
  • Interzicerea accesului crawlerelor pe site-ul dvs. nu îl va elimina din pagina cu rezultatele căutării. Dacă există multe link-uri cu text ancora descriptiv care indică către pagina dvs., aceasta poate fi totuși indexată. Dacă doriți să o preveniți, ar trebui să luați în considerare utilizarea Meta Robots Tag sau antetul X-Robots-Tag.