Kompletny przewodnik po Robots.txt dla SEO

Opublikowany: 2021-12-29

Robots.txt to plik, który możesz utworzyć, aby kontrolować indeksowanie swojej witryny.

Jest to praktyczna implementacja protokołu Robots Exclusion Protocol, który został stworzony, aby uniemożliwić robotom internetowym przeciążanie witryn ze zbyt dużą liczbą żądań.

Może to być niewygodne dla właścicieli usług, jeśli roboty indeksują całą ich przestrzeń URI. Ten dokument określa zasady pierwotnie zdefiniowane w „Protokole wykluczania robotów”, których roboty indeksujące mają przestrzegać podczas uzyskiwania dostępu do identyfikatorów URI.
źródło: Protokół wykluczania robotów

Nawet jeśli Twoja witryna nie musi korzystać z pliku robots.txt , posiadanie go może pozytywnie wpłynąć na Twoją firmę, optymalizując sposób, w jaki boty wyszukiwarek indeksują Twoją witrynę.

Według Web Almanac 2021, około 16,5% stron internetowych w ogóle nie ma pliku robots.txt. Dodatkowo nie wszyscy wdrażają to poprawnie.

Witryny mogą zawierać źle skonfigurowane pliki robots.txt. Na przykład niektóre popularne strony internetowe (prawdopodobnie błędnie) blokowały wyszukiwarki. Google może indeksować te witryny przez pewien czas, ale ostatecznie ich widoczność w wynikach wyszukiwania zostanie zmniejszona.
źródło: Web Almanach

W zależności od rozmiaru Twojej witryny nieprawidłowe użycie pliku robots.txt może być drobnym lub bardzo kosztownym błędem.

Z tego artykułu dowiesz się, jak utworzyć plik robots.txt i uniknąć potencjalnych błędów.

Ukryj zawartość

1 Co to jest plik robots.txt?

1.1 1. Strona, której indeksowanie jest zablokowane, może nadal być indeksowana

1.2 2. Nie możesz zmusić robotów do przestrzegania zasad zawartych w pliku robots.txt

2 Dlaczego potrzebujesz pliku robots.txt?

3 Jak zmodyfikować plik robots.txt

4 Składnia pliku Robots.txt

4.1 Klient użytkownika

4.2 Dyrektywy

4.2.1 Nie zezwalaj

4.2.2 Zezwól

4.2.3 Mapa strony

4.2.4 Opóźnienie indeksowania

4.2.5 Komentarze w robots.txt

4.2.6 Dzikie karty

5 Testowanie pliku robots.txt

6 Robots.txt vs. Meta Robots Tag vs. X-Robots-Tag

7 najlepszych praktyk

Co to jest plik robots.txt?

Robots.txt to prosty plik tekstowy, który można umieścić na serwerze, aby kontrolować dostęp botów do stron. Zawiera reguły dla robotów indeksujących, określające, które strony powinny, a które nie powinny być indeksowane.

Plik powinien znajdować się w katalogu głównym Twojej witryny. Jeśli na przykład Twoja witryna nazywa się domena.com, plik robots.txt powinien znajdować się pod adresem domena.com/robots.txt.

Ale jak działa plik? Jak boty to odkrywają?

Roboty indeksujące to programy przemierzające sieć. Mają różne zastosowania, ale wyszukiwarki używają ich do znajdowania treści internetowych do zindeksowania. Proces ten można podzielić na kilka kroków:

Roboty indeksujące mają kolejkę adresów URL zawierających zarówno nowe, jak i wcześniej znane witryny, które chcą zaindeksować.
Przed zaindeksowaniem witryny roboty indeksujące najpierw szukają pliku robots.txt w katalogu głównym witryny.
Jeśli nie istnieje żaden plik robots.txt, roboty indeksujące przystępują do swobodnego indeksowania witryny. Jeśli jednak istnieje prawidłowy plik robots.txt, roboty indeksujące szukają w nim dyrektyw i przystępują do odpowiedniego indeksowania witryny.

Jeśli wyszukiwarka nie może zaindeksować strony, oznacza to, że ta strona nie może zostać zindeksowana, a co za tym idzie, nie pojawi się na stronach wyników wyszukiwania.

Istnieją jednak dwa zastrzeżenia:

1. Strona, której indeksowanie jest zablokowane, może nadal być indeksowana

Zabronienie indeksowania w pliku robots.txt nie gwarantuje, że wyszukiwarki nie zaindeksują strony. Mogą nadal to robić, jeśli znajdą informacje o treści w innych źródłach i uznają, że jest to ważne. Na przykład mogą znaleźć linki prowadzące do strony z innych witryn, użyć tekstu kotwicy i pokazać go na stronie wyników wyszukiwania.

2. Nie możesz zmusić robotów do przestrzegania zasad zawartych w pliku robots.txt

Robots.txt to tylko wskazówka, a nie obowiązkowa reguła. Nie możesz zmusić botów do posłuszeństwa. Większość robotów, zwłaszcza tych używanych przez wyszukiwarki, nie indeksuje żadnych stron zablokowanych przez plik robots.txt. Jednak wyszukiwarki nie są jedynymi, które korzystają z robotów indeksujących. Złośliwe boty mogą ignorować instrukcje i mimo to uzyskiwać dostęp do stron. Dlatego nie powinieneś używać pliku robots.txt do ochrony wrażliwych danych w Twojej witrynie przed indeksowaniem. Jeśli chcesz się upewnić, że boty nie będą indeksować niektórych treści, lepiej zabezpieczyć je hasłem.

Dlaczego potrzebujesz pliku robots.txt?

Robots.txt nie jest obowiązkową częścią Twojej witryny, ale dobrze zoptymalizowany może przynieść korzyści Twojej witrynie na wiele sposobów.

Co najważniejsze, może pomóc zoptymalizować budżet indeksowania. Boty wyszukiwarek mają ograniczone zasoby, ograniczając liczbę adresów URL, które mogą indeksować w danej witrynie. Jeśli więc marnujesz budżet na indeksowanie na mniej ważnych stronach, może nie wystarczyć na bardziej wartościowe. Jeśli masz małą witrynę, może się to wydawać powierzchownym problemem, ale każdy, kto prowadzi dużą witrynę, wie, jak ważne jest efektywne korzystanie z zasobów botów wyszukiwarek.

Za pomocą pliku robots.txt możesz uniemożliwić indeksowanie niektórych stron, np. stron o niskiej jakości . Ma to kluczowe znaczenie, ponieważ jeśli masz wiele indeksowanych stron o niskiej jakości, może to wpłynąć na całą witrynę i zniechęcić roboty wyszukiwarek do indeksowania nawet stron o wysokiej jakości.

Ponadto plik robots.txt umożliwia określenie lokalizacji mapy witryny XML. Mapa witryny to plik tekstowy zawierający listę adresów URL, które mają indeksować wyszukiwarki. Zdefiniowanie jego linku w pliku robots.txt ułatwia robotom wyszukiwarek znalezienie go.

Jak zmodyfikować plik robots.txt

Sposób modyfikacji pliku robots.txt w dużym stopniu zależy od używanego systemu.

Jeśli korzystasz z CMS lub platformy eCommerce, możesz mieć dostęp do dedykowanych narzędzi lub wtyczek, które pomogą Ci łatwo uzyskać dostęp do pliku i go modyfikować. Na przykład Wix i Shopify umożliwiają bezpośrednią edycję pliku robots.txt. W przypadku WordPress możesz użyć wtyczek takich jak Yoast SEO.

Jeśli nie korzystasz z systemu CMS ani platformy handlu elektronicznego, konieczne może być uprzednie pobranie pliku, edycję go, a następnie przesłanie go z powrotem na swoją witrynę.

Plik możesz pobrać na różne sposoby:

Wyświetl plik w przeglądarce, dodając „/robots.txt” do katalogu głównego, a następnie po prostu skopiuj zawartość.
Skorzystaj z narzędzi udostępnianych przez Twoją usługę hostingową. Na przykład może to być dedykowany panel do zarządzania plikami lub dostępu przez protokół FTP.
Użyj narzędzi konsoli, takich jak cURL, aby pobrać plik, wpisując to polecenie:

 curl https://example.com/robots.txt -o robots.txt

Użyj testerów robots.txt firmy Google lub Bing, aby pobrać kopię swojego pliku.

Po pobraniu pliku robots.txt możesz go po prostu edytować w wybranym edytorze tekstu, takim jak Notatnik (Windows) lub TextEdit (Mac). Upewnij się, że kodujesz plik w standardzie UTF-8 i pamiętaj, że musi mieć nazwę „robots.txt”.

Po zmodyfikowaniu pliku robots.txt możesz wgrać plik podobnie jak go pobrać. Możesz skorzystać z dedykowanych narzędzi dostarczanych przez Twój hosting, skorzystać z wbudowanych narzędzi CMS, czy przesyłać pliki bezpośrednio na serwer za pomocą protokołów FTP.

Gdy plik będzie publicznie dostępny, wyszukiwarki mogą go znaleźć automatycznie. Jeśli z jakiegoś powodu chcesz, aby wyszukiwarki od razu widziały zmiany, możesz użyć opcji Prześlij w testerach robots.txt Google i Bing.

Podczas automatycznego indeksowania roboty Google zauważają zmiany wprowadzone w pliku robots.txt i aktualizują wersję z pamięci podręcznej co 24 godziny. Jeśli chcesz szybciej zaktualizować pamięć podręczną, użyj funkcji Wyślij w testerze pliku robots.txt .
źródło: Google

Składnia pliku robots.txt

Robots.txt składa się z bloków tekstu. Każdy blok zaczyna się ciągiem User-agent i dyrektywami grup (regułami) dla konkretnego bota.

Oto przykład pliku robots.txt:

 Agent użytkownika: *
Nie zezwalaj: /admin/
Nie zezwalaj: /użytkownicy/

#szczegółowe instrukcje dotyczące Googlebota
Klient użytkownika: Googlebot
Zezwól: /wp-admin/
Nie zezwalaj: /użytkownicy/

#szczegółowe instrukcje dla Bingbota
Klient użytkownika: Bingbot
Nie zezwalaj: /admin/
Nie zezwalaj: /użytkownicy/
Disallow:/nie dla Bingbota/
Opóźnienie indeksowania: 10

Mapa witryny: https://www.example.com/sitemap.xml

Agent użytkownika

Istnieją setki robotów, które mogą chcieć uzyskać dostęp do Twojej witryny. Dlatego możesz chcieć zdefiniować dla nich różne granice w oparciu o ich intencje. Tutaj może się przydać User-Agent.

User-agent to ciąg tekstu, który identyfikuje konkretnego bota. Na przykład Google używa Googlebota, Bing używa Bingbota, DuckDuckGo używa DuckDuckBot, a Yahoo używa Slurp. Wyszukiwarki mogą również mieć więcej niż jednego klienta użytkownika. Tutaj znajdziesz pełną listę klientów użytkownika używanych przez Google i Bing.

User-agent jest wymaganym wierszem w każdej grupie dyrektyw. Możesz myśleć o tym, jak nazywać boty po imieniu i wydawać każdemu z nich konkretną instrukcję. Wszystkie dyrektywy, które następują po agencie użytkownika, będą skierowane do zdefiniowanego bota, dopóki nie zostanie określony nowy klient użytkownika.

Możesz także użyć symbolu wieloznacznego i wydać instrukcje wszystkim botom naraz. Symbole wieloznaczne omówię później.

Dyrektywy

Dyrektywy to reguły, które definiujesz dla robotów wyszukiwarek. Każdy blok tekstu może mieć jedną lub więcej dyrektyw. Każda dyrektywa musi zaczynać się w osobnym wierszu.

Dyrektywy obejmują:

Uniemożliwić,
Umożliwić,
Mapa strony,
Opóźnienie indeksowania.

Uwaga: istnieje również nieoficjalna dyrektywa noindex, która ma wskazywać, że strona nie powinna być indeksowana. Jednak większość wyszukiwarek, w tym Google i Bing, nie obsługuje tego. Jeśli nie chcesz, aby niektóre strony były indeksowane, użyj nagłówka noindex Meta Robots Tag lub X-Robots-Tag (wyjaśnię je w dalszej części artykułu).

Uniemożliwić

 Klient użytkownika: Googlebot
Nie zezwalaj: /użytkownicy/

Ta dyrektywa określa, które strony nie powinny być indeksowane. Domyślnie boty wyszukiwarek mogą indeksować każdą stronę niezablokowaną przez dyrektywę disallow.

Aby zablokować dostęp do konkretnej strony, musisz zdefiniować jej ścieżkę w stosunku do katalogu głównego.

Załóżmy, że masz w swojej witrynie te dwie witryny:

website.com/products/shoes/item1.html
website.com/products/shirts/item2.html

Spójrzmy teraz na kilka przykładów blokowania tych ścieżek:

Ścieżka	Zablokowany
Disallow: /item1.html	Tylko /products/shoes/item1.html jest niedozwolone
Odrzuć: /produkty/	Zarówno /products/shoes/item1.html, jak i /products/shirts/item2.html są niedozwolone

Możesz uniemożliwić indeksowanie całej witryny, dodając symbol „/” w następujący sposób:

 Klient użytkownika: Googlebot
Uniemożliwić: /

Umożliwić

 Klient użytkownika: Googlebot
Nie zezwalaj: /użytkownicy/
Zezwól: /users/very-important-user.html

Możesz użyć dyrektywy allow, aby zezwolić na indeksowanie strony w katalogu, który w inny sposób jest niedozwolony.

W powyższym przykładzie wszystkie strony w katalogu /user/ są niedozwolone z wyjątkiem jednej o nazwie /very-important-user.html.

Mapa strony

 Mapa witryny: https://website.com/sitemap.xml

Dyrektywa sitemap określa lokalizację Twojej mapy witryny. Możesz dodać go na początku lub na końcu pliku i zdefiniować więcej niż jedną mapę witryny.

W przeciwieństwie do ścieżek zdefiniowanych w innych dyrektywach, zawsze dodawaj pełny adres URL mapy witryny, w tym protokół HTTP/HTTPS lub wersję www/bez www.

Dyrektywa mapy witryny nie jest wymagana, ale jest wysoce zalecana. Nawet jeśli przesłałeś mapę witryny w Google Search Console lub Bing Webmaster Tools, zawsze dobrze jest dodać ją do pliku robots.txt, aby pomóc wszystkim robotom wyszukiwarek szybciej ją znaleźć.

Opóźnienie indeksowania

 Opóźnienie indeksowania: 10

Boty wyszukiwarek mogą indeksować wiele stron w krótkim czasie. Każde indeksowanie wykorzystuje część zasobów Twojego serwera.

Jeśli masz dużą witrynę internetową z wieloma stronami lub otwarcie każdej strony wymaga dużej ilości zasobów serwera, Twój serwer może nie być w stanie obsłużyć wszystkich żądań. W rezultacie będzie przeciążony, a zarówno użytkownicy, jak i wyszukiwarki mogą tymczasowo stracić dostęp do Twojej witryny. Tutaj może przydać się dyrektywa Crawl-delay i spowolnić proces indeksowania.

Wartość dyrektywy Crawl-delay jest definiowana w sekundach. Możesz ustawić go w zakresie 1-30 sekund.

Należy zauważyć, że nie każda wyszukiwarka przestrzega tej dyrektywy. Na przykład Google w ogóle nie obsługuje opóźnienia indeksowania.

Dodatkowo jego interpretacja może się różnić w zależności od wyszukiwarki. Na przykład w przypadku Bing i Yahoo Crawl-delay oznacza długość przerwy w oknie, podczas której bot może uzyskać dostęp do strony tylko raz.

W przypadku Yandex parametr Crawl-delay określa czas, przez jaki bot musi czekać, zanim zażąda kolejnej strony.

Komentarze w robots.txt

 #Blokuje dostęp do sekcji blogów
Klient użytkownika: Googlebot
Nie zezwalaj: /blog/

Klient użytkownika: Bingbot
Disallow: /users/ #blokuje dostęp do sekcji użytkowników

Komentarze można dodawać do pliku robots.txt, dodając znak hash # na początku wiersza lub po dyrektywie. Wyszukiwarki ignorują wszystko, co następuje po # w tym samym wierszu.

Komentarze są przeznaczone dla ludzi, aby wyjaśnić, co oznacza konkretna sekcja. Dodanie ich zawsze jest dobrym pomysłem, ponieważ pozwolą Ci szybciej zrozumieć, co się dzieje przy następnym otwarciu pliku.

Możesz użyć komentarzy, aby dodać pisanki do pliku robots.txt. Jeśli chcesz dowiedzieć się więcej na ten temat, możesz zapoznać się z naszym artykułem o tym, jak sprawić, by dyrektywy robotów były zabawne dla ludzi lub zobaczyć przykład w naszym pliku robots.txt.

Symbole wieloznaczne

Symbole wieloznaczne to znaki specjalne, które mogą działać jako symbole zastępcze dla innych symboli w tekście, dzięki czemu upraszczają proces tworzenia pliku robots.txt. Zawierają:

Gwiazdka * i
Znak dolara $.

Gwiazdka może zastąpić dowolny ciąg.

Agent użytkownika: *

W powyższym przykładzie gwiazdka w wierszu User-agent określa wszystkie boty wyszukiwarek. Dlatego każda następująca po nim dyrektywa będzie skierowana do wszystkich robotów indeksujących.

 Uniemożliwić: /*?

Możesz go również użyć do zdefiniowania ścieżki. Powyższe przykłady oznaczają, że każdy adres URL, który kończy się znakiem „?” jest niedozwolone.

Znak dolara wskazuje konkretny element pasujący do końca adresu URL.

 Odrzuć: /*.jpeg$

Powyższy przykład wskazuje, że każdy adres URL kończący się na „.jpeg” powinien być niedozwolony.

Symboli wieloznacznych można używać w każdej dyrektywie, z wyjątkiem mapy witryny.

Testowanie pliku robots.txt

Możesz przetestować za pomocą testera pliku robots.txt w Google Search Console i Narzędziach dla webmasterów Bing. Po prostu wpisz adres URL, który chcesz zweryfikować, a narzędzie pokaże Ci, czy jest to dozwolone, czy niedozwolone.

Możesz również edytować plik bezpośrednio w testerach pliku robots.txt i ponownie przetestować zmiany. Pamiętaj, że zmiany nie są zapisywane na Twojej stronie. Musisz samodzielnie skopiować plik i przesłać go do swojej witryny.

Jeśli masz większą wiedzę techniczną, możesz również skorzystać z biblioteki robots.txt o otwartym kodzie źródłowym Google, aby przetestować plik robots.txt lokalnie na swoim komputerze.

Robots.txt vs. Meta Robots Tag vs. X-Robots-Tag

Plik robots.txt nie jest jedynym sposobem komunikacji z robotami. Możesz także użyć tagu Meta Robots i X-Robots-Tag.

Najważniejszą różnicą jest to, że robots.txt kontroluje indeksowanie witryny, podczas gdy Meta Robots Tag i X-Robots-Tag pozwalają kontrolować jej indeksowanie.

Metody te różnią się między innymi również sposobami realizacji.

	Realizacja
Robots.txt	Prosty plik tekstowy dodany w katalogu głównym Twojej witryny.
Znacznik meta robotów	Tag HTML dodany w sekcji <head> kodu.
X-Robots-Tag	Część nagłówka odpowiedzi HTTP dodana po stronie serwera.

Gdy bot wyszukiwarki znajdzie stronę, najpierw zajrzy do wnętrza pliku robots.txt. Jeśli indeksowanie nie jest zabronione, może uzyskać dostęp do witryny i dopiero wtedy może znaleźć potencjalne tagi Meta Robots lub nagłówki X-Robots-Tag. Należy pamiętać z dwóch powodów:

Łącząc metody – boty wyszukiwarek muszą mieć możliwość indeksowania strony, aby zobaczyć Meta Robots Tag i X-Robots-Tag. Jeśli boty nie mogą uzyskać dostępu do strony, nie będą działać poprawnie.
Optymalizacja budżetu indeksowania — spośród tych trzech metod tylko plik robots.txt może pomóc w oszczędzaniu budżetu indeksowania.

Najlepsze praktyki

Oto kilka sprawdzonych metod i wskazówek dotyczących tworzenia pliku robots.txt:

Nie blokuj plików JavaScript ani CSS za pomocą pliku robots.txt. Boty mogą nie renderować poprawnie treści, jeśli nie mają dostępu do tych zasobów.
Pamiętaj, aby dodać link do mapy witryny, aby ułatwić wszystkim robotom wyszukiwarek znalezienie go.
Interpretacja składni pliku robots.txt może się różnić w zależności od wyszukiwarki. Zawsze dokładnie sprawdzaj, jak bot wyszukiwarki traktuje określoną dyrektywę, jeśli nie masz pewności.
Zachowaj ostrożność podczas używania symboli wieloznacznych. Jeśli niewłaściwie ich użyjesz, możesz przez pomyłkę zablokować dostęp do całej sekcji swojej witryny.
Nie używaj pliku robots.txt do blokowania prywatnych treści. Jeśli chcesz zabezpieczyć swoją stronę, lepiej zabezpieczyć ją hasłem. Ponadto plik robots.txt jest publicznie dostępny i możesz potencjalnie ujawnić lokalizację swoich prywatnych treści niebezpiecznym botom.
Zabronienie robotom dostępu do Twojej witryny nie spowoduje usunięcia jej ze strony wyników wyszukiwania. Jeśli istnieje wiele linków z opisowym tekstem kotwicy wskazującym na Twoją stronę, nadal można ją zaindeksować. Jeśli chcesz temu zapobiec, rozważ użycie nagłówka Meta Robots Tag lub X-Robots-Tag.