Cum să creați un fișier Robots.txt bun pentru site-ul dvs

Publicat: 2018-07-09

Robots.txt – Este mai mult un subiect tehnic. Fișierul Robots.txt ar putea fi un termen nou pentru majoritatea oamenilor. De fapt, este un text mic care decide viitorul site-ului tău.

Cum este posibil?

Este posibil. Acest text mic poate controla traficul site-ului dvs. Dacă îl introduceți ca fiind greșit, este posibil ca pagina dvs. să nu fie în rezultatul căutării. Prin urmare, este important să știi cum să-l folosești corect.

Este una dintre cele mai simple și mai ușoare metode SEO pe care le poți aplica site-ului tău. Nu are nevoie de cunoștințe tehnice pentru a controla puterea robots.txt. Dacă puteți găsi codul sursă, atunci este ușor.

De asemenea, plasarea robots.txt oriunde pe site nu va ajuta. Pentru asta, mai întâi trebuie să găsiți codul sursă și să-l păstrați acolo. Apoi, numai crawler-ul web va putea identifica instrucțiunile și acționa în consecință.

Din acest articol veți obține răspunsul la următoarele întrebări:

Ce este un fișier robots.txt?
Utilizări ale fișierului robot.txt
Cum functioneazã?
Cum să o creez?
Importanța fișierului robots.txt?
Ce să includă în acest dosar?

În primul rând, permiteți-mi să explic termenul

Ce este un fișier Robots.txt?

Robots.txt este un fișier text care se localizează în directorul rădăcină al unui site. Acesta controlează crawlerele motoarelor de căutare și păianjenii în vizitarea unui anumit site web. Aceasta înseamnă că îi spune motorului de căutare despre paginile site-ului web care doresc să le viziteze sau să nu le viziteze.

Fiecare proprietar de site-uri web încearcă să fie remarcat în zilele noastre. Puteți face acest lucru folosind acest mic text. Vă ajută să includeți sau să excludeți o anumită pagină din rezultatul căutării. Vă veți face o idee despre asta după ce citiți acest articol.

Când un crawler accesează un site, primul lucru pe care îl solicită este fișierul „robots.txt”. Dacă există un astfel de fișier, atunci acesta merge la instrucțiunile de indexare pentru o procedură ulterioară.

Dacă nu ați adăugat un fișier robots.txt, atunci motorul de căutare se poate accesa cu crawlere oriunde în site-ul dvs. și poate indexa tot ce găsește pe site. Dar este o bună practică să specificați sitemap-ul dvs. Îi face ușor pentru motorul de căutare să găsească conținut nou fără nicio întârziere.

Utilizări ale robots.txt:

Puteți evita paginile duplicat folosind acest text
Dacă nu doriți ca motorul de căutare să indexeze pagina internă cu rezultatele căutării, puteți utiliza acest text
Utilizați-l dacă nu doriți ca motoarele de căutare să indexeze anumite zone ale paginii dvs. web sau întregul site
Puteți evita indexarea anumitor imagini sau fișiere
Puteți naviga motorul de căutare la harta site-ului dvs
Puteți utiliza o întârziere a accesării cu crawlere pentru a preveni supraîncărcarea serverelor atunci când crawlerele încarcă mai multe conținuturi în același timp.

Utilizați robots.txt numai ori de câte ori aveți nevoie să controlați accesul la o anumită pagină. Dacă nu există așa ceva, nu trebuie să îl folosiți

Cum funcționează fișierul Robots.txt:

Un motor de căutare are două funcții principale.

Accesarea cu crawlere a site-ului web pentru a descoperi conținutul
Indexarea acelui conținut pentru a servi utilizatorilor care caută o anumită informație

Motorul de căutare se accesează cu crawlere de la un site la altul. Astfel se accesează cu crawlere miliarde de site-uri. Procesul de crawling este cunoscut și sub numele de spidering.

După ce ajungeți la un site web și înainte de a accesa cu crawlere de la un site la altul, crawler-ul caută fișierul robots.txt. Dacă găsește unul, crawler-ul îl citește mai întâi înainte de a continua pe acel site. Acest fișier robots.txt conține instrucțiuni pentru un crawler web. Spune dacă să continui sau nu. Dacă crawler-ul nu a găsit instrucțiuni sau informații despre ce să facă, atunci va continua pentru activitate ulterioară.

Unde va ajunge robots.txt?

Robots.txt este primul lucru pe care îl arată un WebCrawler sau un motor de căutare atunci când vizitează un site. Se uită doar în directorul principal. Dacă nu este găsit acolo, crawler-ul continuă cu tot ce se află în site. Prin urmare, este esențial să plasați un fișier robot.txt în directorul principal sau în domeniul rădăcină .

Pentru a explica acest lucru, să luăm un exemplu de wordpress.com. Dacă agentul utilizator vizitează www.wordpress.com/robots.txt și dacă nu există niciun fișier robot, atunci presupune că site-ul nu are instrucțiuni. Așa că începe să indexeze fiecare pagină. Fișierul robot dacă există la www.wordpress.com /index/robots.text sau la www.wordpress.com/homepage/robots.txt agentul utilizator nu îl va găsi. Va fi tratat ca un site fără robot.txt.

Pași pentru a crea un fișier Robots.txt?

Un fișier robots.txt conține două câmpuri; o linie este cu un nume de agent de utilizator sau mai multe linii cu directiva. A doua linie indică ce acțiune trebuie să facă crawler-ul pe un site web. Să verificăm cum să creăm un fișier robots.txt

Primul pas este deschiderea unui nou fișier text. Puteți folosi Notepad pentru computere și editor de text pentru Mac și îl puteți salva ca fișier text inclus
Încărcați-l în directorul rădăcină. Este un folder la nivel rădăcină numit „htdocs” sau „www”. Deci aceasta vine imediat după numele dvs. de domeniu.
Dacă există subdomeniu, creați-l pentru fiecare subdomeniu

Iată formatul de bază al robots.txt

User-agent : [user-agent-name]

Disallow : [numele șirului URL care nu trebuie accesat cu crawlere]

Acesta este în principiu cunoscut ca fișier robots.txt. Ar putea exista mai multe linii de utilizator și directive. Ar putea fi orice, de la permis, respingere, întârzieri de accesare cu crawlere etc

Termeni tehnici din robots.txt:

Există câteva cuvinte comune legate de limbajul robots.txt. Ele sunt cunoscute ca sintaxa robots.txt. Cinci cuvinte principale sunt utilizate în mod obișnuit în fișierul robots.txt. Sunt:

Agent utilizator :

User-agent este crawler-ul web sau motorul de căutare căruia îi oferiți instrucțiuni.

Nu permiteți:

Această comandă dă instrucțiuni crawler-ului să nu acceseze cu crawlere o anumită adresă URL. Fiecare adresă URL poate folosi singura linie interzisă.

Permite:

Această comandă este utilizată numai pentru Google Bot. Dând această comandă, botul Google poate accesa acel subdosar sau pagină chiar dacă pagina sa părinte este interzisă.

Întârzierea accesului cu crawlere:

Indică timpul de așteptare înainte de încărcarea și accesarea cu crawlere a conținutului paginii. Nu va funcționa pentru botul Google, dar puteți seta ora pentru consola de căutare Google

Harta site-ului:

Este folosit pentru a indica locația oricărui sitemap XML asociat cu o adresă URL. Este acceptat doar de Google, Yahoo, Bing și Ask.

Aceștia sunt termenul cel mai comun pe care ar trebui să-l cunoașteți în sintaxa robot.txt. Acum puteți prezice comanda doar văzând un fișier robots.txt

Ce să includeți într-un fișier Robots.txt?

Robot.txt oferă doar o instrucțiune pentru roboții web despre accesarea sau nu accesarea nimic. Dacă nu doriți să afișați nicio pagină web utilizatorilor, puteți da instrucțiuni către crawler folosind fișierul robots.txt. În caz contrar, îl puteți proteja folosind o parolă. Astfel, puteți ascunde locația oricărei pagini de administrator sau private. Împiedică accesarea cu crawlere a roboților către acele pagini private.

Acum haideți să vedem cum se face cu câteva exemple

Permite totul și trimite sitemap:

Aceasta este o opțiune bună pentru toate site-urile. Acest lucru permite motorului de căutare să acceseze cu crawlere peste tot și să indexeze toate datele. De asemenea, permite afișarea locației XML, astfel încât crawler-ul să poată accesa cu ușurință pagini noi

Agent utilizator:*

Permite: /

#referință hartă site-ului

Harta site-ului: www.wordpress.com/sitemap.xml

Permite totul, cu excepția unui subdirector

Uneori va exista o zonă în pagina dvs. pe care nu doriți să o afișați în rezultatele căutării. Ar putea fi ceva asemănător cu o imagine, o zonă de checkout, fișiere, secțiune de audit etc. Puteți să o interziceți

Agent utilizator: *

Permite: /

# subdirector nepermis

Nu permiteți: /checkout/

Nu permiteți: /imagini/

Nepermite:/raport de audit/

Permiteți totul în afară de anumite fișiere:-

Uneori poate doriți să afișați conținut media sau o imagine pe site-ul dvs. web sau să afișați documente. Dar nu doriți ca acestea să apară în rezultatele căutării. Puteți ascunde fișiere animate, gif-uri, fișiere pdf sau PHP, așa cum se arată mai jos

Agent utilizator:*

Permite: /

#Disallow tipuri de fișiere

Nu permiteți: /*.gif$

Nu permiteți: /*.pdf$

Nu permiteți: /*.php$

Permiteți totul în afară de anumite pagini web:-

Uneori este posibil să doriți să ascundeți unele pagini care nu sunt potrivite pentru a fi citite, ar putea fi orice din termenii și condițiile dvs. sau orice subiecte sensibile pe care nu doriți să le arătați altora. Le puteți ascunde după cum urmează

Agent utilizator: *

Permite: /

#disallow pagini web

Nu permiteți: /terms.html

Disallow:/ lista-secretă-de contacte.php

Permite totul, cu excepția anumitor modele de URL

Uneori este posibil să doriți să interziceți anumite modele de adrese URL. Ar putea fi o pagină de test, orice pagină de căutare internă etc

Agent utilizator: *

Permite: /

#disallow modele de adrese URL

Nu permiteți: /*căutare=

Nu permiteți: /*test.php$

În aceste condiții de mai sus, ați găsit multe simboluri și caractere. Aici explic ce înseamnă de fapt fiecare dintre ele

Simbolul stea (*) reprezintă orice număr de caractere sau un singur caracter.
Simbolul dolarului ($) indică sfârșitul adresei URL. Dacă ați uitat să-l puneți, atunci veți bloca un număr mare de adrese URL accidental

Notă : – aveți grijă să nu interziceți întregul domeniu. Uneori puteți vedea o comandă ca aceasta

Agent utilizator: *

Nu permite: /

Stii ce inseamna? Spui că motorul de căutare interzice întregul tău domeniu. Deci, nu va indexa nicio pagină web și nu puteți fi în niciun rezultat al căutării. Așa că aveți grijă să nu puneți asta accidental.

Testarea finală:

Este important să verificați dacă fișierul robots.txt funcționează sau nu. Chiar dacă ați procedat corect, este recomandată o verificare adecvată

Puteți utiliza instrumentul robots.txt de la Google pentru a afla dacă totul este în regulă cu fișierul dvs. Mai întâi, trebuie să înregistrați site-ul pe care aplicați fișierul robots.txt în instrumentul Google pentru webmasteri. După înregistrare, conectați-vă la acel instrument și selectați site-ul dvs. Acum, Google vă va afișa toate notele pentru a afișa eroarea.

Cum să verificați dacă site-ul dvs. are un fișier robot.txt?

Puteți verifica acest lucru cu ușurință. Să luăm exemplul anterior de word press. Introduceți adresa site-ului dvs. www.wordpress.com și adăugați /robots.txt împreună cu acesta. adică www.wordpress.com/robots.txt. Acum, puteți vedea dacă site-ul dvs. are un fișier roborts.txt sau nu.

Alte sfaturi rapide pentru robot.txt:

Dacă plasați robots.txt în directorul de nivel superior al unui site, este ușor să fiți notat
Dacă ați interzis orice subdirector, orice fișier sau pagină web din subdirector va fi interzis
Robots.txt face distincție între majuscule și minuscule. Trebuie să îl introduceți ca robots.txt. Altfel, nu va funcționa
Unii agenți utilizatori pot ignora fișierul robots.txt. Unele crawler-uri, cum ar fi scraper-urile de e-mail sau roboții malware etc., pot ignora acest fișier
/robots.txt este disponibil public. Prin urmare, este mai bine să nu ascundeți nicio informație privată despre utilizator. Dacă adăugați /robots.txt la sfârșitul oricărui domeniu rădăcină, puteți vedea paginile pe care doriți să le accesați cu crawlere sau nu doriți să le accesați cu crawlere, dacă are un fișier robot.txt.
Este nevoie de câteva zile pentru ca un motor de căutare să identifice o adresă URL nepermise și să o elimine din indexul său
Fiecare subdomeniu dintr-o rădăcină utilizează un fișier robots.txt separat. De exemplu, blog.wordpress.com și wordpress.com folosesc fișiere robots.txt separate. adică blog.wordpress.com/robots.txt și wordpress.com/robots.txt
Este mai bine să adăugați locația oricărui sitemap în partea de jos a fișierului robots.txt

Ai o idee despre concept? Este unul simplu, nu? Puteți aplica acest lucru site-ului dvs. și puteți îmbunătăți performanța acestuia. Nu este necesar să afișați totul pe site-ul dvs. Puteți ascunde paginile de administrator sau termenii și condițiile etc. de utilizatori. Fișierul Robots.txt vă va ajuta în acest sens. Utilizați-l cu înțelepciune pentru a indica harta site-ului și pentru a face indexarea site-ului dvs. mai rapidă.

Robot.txt nu se referă doar la interzicerea conținutului sau fișierelor nedorite. Este foarte esențial și pentru o descărcare mai rapidă. Puteți face acest lucru cu ușurință. Nu există nimic legat de cunoștințele tehnice pentru a face această sarcină. Oricine poate face asta după o analiză foarte bună. După ce ați aplicat acest lucru, nu uitați să îl testați cu instrumentul Google.robot.txt. Vă ajută să identificați dacă există sau nu erori în textul adăugat.

Este foarte esențial să vă actualizați cu privire la toate aspectele SEO. Deoarece te afli într-o piață în care se produc noi schimbări zilnic, trebuie să știi despre tot ce se întâmplă în jurul tău. Încercați să implementați cele mai moderne tehnici pentru a face site-ul dvs. un succes uriaș.