Jak utworzyć dobry plik Robots.txt dla swojej witryny?

Opublikowany: 2018-07-09

Robots.txt – to bardziej temat techniczny. Plik robots.txt może być nowym terminem dla większości ludzi. Właściwie to mały tekst, który decyduje o przyszłości Twojej witryny.

Jak to możliwe?

To jest możliwe. Ten mały tekst może kontrolować ruch w Twojej witrynie. Jeśli wpiszesz go jako niepoprawny, Twoja strona może nie być w wynikach wyszukiwania. Dlatego ważne jest, aby wiedzieć, jak prawidłowo z niego korzystać.

Jest to jedna z najprostszych i najłatwiejszych metod SEO, które możesz zastosować w swojej witrynie. Nie wymaga żadnej wiedzy technicznej, aby kontrolować moc pliku robots.txt. Jeśli możesz znaleźć kod źródłowy, to jest to łatwe.

Również umieszczenie pliku robots.txt w dowolnym miejscu witryny nie pomoże. W tym celu musisz najpierw znaleźć kod źródłowy i zachować go tam. Wtedy tylko robot indeksujący będzie w stanie zidentyfikować Twoją instrukcję i podjąć odpowiednie działania.

Z tego artykułu uzyskasz odpowiedź na następujące pytania:

Co to jest plik robots.txt?
Zastosowania pliku robot.txt
Jak to działa?
Jak to stworzyć?
Znaczenie pliku robots.txt?
Co zawrzeć w tym pliku?

Najpierw wyjaśnię termin

Co to jest plik Robots.txt?

Robots.txt to plik tekstowy, który znajduje się w katalogu głównym witryny. Kontroluje roboty indeksujące i pająki wyszukiwarek podczas odwiedzania określonej witryny. Oznacza to, że informuje wyszukiwarkę o stronach witryny, które chcą odwiedzić lub nie.

W dzisiejszych czasach każdy właściciel strony internetowej stara się zostać zauważony. Możesz to zrobić za pomocą tego małego tekstu. Pomaga uwzględnić lub wykluczyć konkretną stronę z wyników wyszukiwania. Dowiesz się o tym po przeczytaniu tego artykułu.

Gdy robot indeksujący uzyskuje dostęp do witryny, pierwszą rzeczą, jakiej żąda, jest plik „robots.txt”. Jeśli taki plik istnieje to przechodzi do instrukcji indeksacji do dalszej procedury.

Jeśli nie dodałeś pliku robots.txt, wyszukiwarka może łatwo zaindeksować Twoją witrynę w dowolnym miejscu i zaindeksować wszystko, co znajdzie w Twojej witrynie. Dobrą praktyką jest jednak określenie mapy witryny. Ułatwia wyszukiwarce znajdowanie nowych treści bez żadnych opóźnień.

Zastosowania pliku robots.txt:

Korzystając z tego tekstu, możesz uniknąć duplikowania stron
Jeśli nie chcesz, aby wyszukiwarka indeksowała Twoją wewnętrzną stronę wyników wyszukiwania, możesz użyć tego tekstu
Użyj go, jeśli nie chcesz, aby wyszukiwarki indeksowały określone obszary Twojej strony lub całą witrynę
Możesz uniknąć indeksowania niektórych obrazów lub plików
Możesz nawigować wyszukiwarkę do mapy witryny
Możesz użyć opóźnienia indeksowania, aby zapobiec przeciążeniu serwerów, gdy przeszukiwacze ładują wiele treści jednocześnie.

Używaj pliku robots.txt tylko wtedy, gdy chcesz kontrolować dostęp do określonej strony. Jeśli czegoś takiego nie ma, nie musisz tego używać

Jak działa plik Robots.txt:

Wyszukiwarka ma dwie główne funkcje.

Indeksowanie witryny w celu odkrycia treści
Indeksowanie tych treści w celu obsługi osób wyszukujących, które szukają określonych informacji

Wyszukiwarka indeksuje z jednej witryny do innej witryny. W ten sposób przemierza miliardy witryn. Proces pełzania jest również znany jako pająk.

Po dotarciu do witryny, a przed przejściem z jednej witryny do drugiej, robot szuka pliku robots.txt. Jeśli go znajdzie, robot najpierw go przeczyta, zanim przejdzie do tej witryny. Ten plik robots.txt zawiera instrukcje dla robota internetowego. Mówi, czy kontynuować, czy nie. Jeśli robot indeksujący nie może znaleźć żadnych wskazówek ani informacji, co zrobić, przystąpi do dalszych działań.

Gdzie trafi plik robots.txt?

Robots.txt to pierwsza rzecz, na którą WebCrawler lub wyszukiwarka przegląda witrynę. Zagląda tylko do głównego katalogu. Jeśli nie zostanie tam znaleziony, robot indeksuje wszystko w witrynie. Dlatego konieczne jest umieszczenie pliku robot.txt w głównym katalogu lub domenie głównej .

Aby to wyjaśnić, weźmy przykład wordpress.com. Jeśli klient użytkownika odwiedza www.wordpress.com/robots.txt i nie ma pliku robota, zakłada, że witryna nie ma żadnych instrukcji. Więc zaczyna indeksować każdą stronę. Jeśli plik robota istnieje na stronie www.wordpress.com/index/robots.text lub www.wordpress.com/homepage/robots.txt, klient użytkownika go nie znajdzie. Będzie traktowana jako witryna bez pliku robot.txt.

Jak utworzyć plik Robots.txt?

Plik robots.txt zawiera dwa pola; jedna linia jest z nazwą agenta użytkownika lub kilka linii z dyrektywą. Drugi wiersz wskazuje, jakie działanie robot ma wykonać na stronie internetowej. Sprawdźmy, jak utworzyć plik robots.txt

Pierwszym krokiem jest otwarcie nowego pliku tekstowego. Możesz użyć Notatnika dla komputerów PC i edytora tekstu dla komputerów Mac i zapisać go jako plik z załączonym tekstem
Prześlij go do swojego katalogu głównego. Jest to folder na poziomie głównym o nazwie „htdocs” lub „www”. Więc to pojawia się zaraz po nazwie domeny.
Jeśli subdomena istnieje, utwórz ją dla każdej subdomeny

Oto podstawowy format pliku robots.txt

Klient-użytkownik : [nazwa-klienta-użytkownika]

Disallow : [nazwa ciągu adresu URL , którego nie należy indeksować]

Jest to zasadniczo znane jako plik robots.txt. Może istnieć wiele linii użytkownika i dyrektyw. Może to być wszystko, od zezwalania, odrzucania, opóźnień indeksowania itp.

Terminy techniczne w pliku robots.txt:

Istnieje kilka popularnych słów związanych z językiem robots.txt. Są one znane jako składnia pliku robots.txt. Pięć głównych słów jest powszechnie używanych w pliku robots.txt. Oni są:

Agent użytkownika :

User-agent to robot indeksujący lub wyszukiwarka, któremu przekazujesz instrukcje.

Uniemożliwić:

To polecenie daje robotowi instrukcję, aby nie indeksował określonego adresu URL. Każdy adres URL może używać tylko jednego wiersza zakazu.

Umożliwić:

To polecenie jest używane tylko przez Google Bot. Podając to polecenie, bot Google może uzyskać dostęp do tego podfolderu lub strony, nawet jeśli jego strona nadrzędna jest niedozwolona.

Opóźnienie indeksowania:

Wskazuje czas oczekiwania przed załadowaniem i indeksowaniem treści strony. To nie zadziała dla bota Google, ale możesz ustawić czas dla Google Search Console

Mapa witryny:

Służy do wskazywania lokalizacji dowolnej mapy witryny XML powiązanej z adresem URL. Obsługiwany tylko przez Google, Yahoo, Bing i Ask.

Są to najczęstsze terminy, które powinieneś znać w składni robot.txt. Teraz możesz przewidzieć polecenie, po prostu widząc plik robots.txt

Co umieścić w pliku Robots.txt?

Robot.txt zawiera tylko instrukcje dla robotów internetowych dotyczące dostępu lub braku dostępu do czegokolwiek. Jeśli nie chcesz pokazywać użytkownikom żadnej strony internetowej, możesz wskazać kierunek robotowi za pomocą pliku robots.txt. W przeciwnym razie możesz go zabezpieczyć za pomocą hasła. W ten sposób możesz ukryć lokalizację dowolnych stron administracyjnych lub prywatnych. Zapobiega indeksowaniu robotów do tych prywatnych stron.

Sprawdźmy teraz, jak to zrobić na kilku przykładach

Zezwól na wszystko i prześlij mapę witryny:

To dobra opcja dla wszystkich witryn. Dzięki temu wyszukiwarka może indeksować wszędzie i indeksować wszystkie dane. Umożliwia również pokazanie lokalizacji XML, dzięki czemu robot może łatwo uzyskać dostęp do nowych stron

Agent użytkownika:*

Umożliwić: /

#odniesienie do mapy witryny

Mapa witryny: www.wordpress.com/sitemap.xml

Zezwalaj na wszystko oprócz jednego podkatalogu

Czasami na Twojej stronie pojawi się obszar, którego nie chcesz pokazywać w wynikach wyszukiwania. Może to być obraz, obszar kasy, pliki, sekcja audytu itp. Możesz na to zabronić

Agent użytkownika: *

Umożliwić: /

# niedozwolony podkatalog

Nie zezwalaj: /do kasy/

Nie zezwalaj: /obrazy/

Disallow:/raport z audytu/

Zezwalaj na wszystko oprócz określonych plików:-

Czasami możesz chcieć pokazać multimedia lub obraz na swojej stronie internetowej lub pokazać dokumenty. Ale nie chcesz, aby pojawiały się w wynikach wyszukiwania. Możesz ukryć animowane pliki, gify, pliki pdf lub PHP, jak pokazano poniżej

Agent użytkownika:*

Umożliwić: /

#Nie zezwalaj na typy plików

Nie zezwalaj: /*.gif$

Nie zezwalaj: /*.pdf$

Zabroń: /*.php$

Zezwalaj na wszystko oprócz określonych stron internetowych:-

Czasami możesz chcieć ukryć niektóre strony, które nie nadają się do czytania, może to być wszystko z Twojego regulaminu lub jakiekolwiek drażliwe tematy, których nie chcesz pokazywać innym. Możesz je ukryć w następujący sposób

Agent użytkownika: *

Umożliwić: /

#nie zezwalaj na strony internetowe

Disallow: /terms.html

Disallow:/ tajna-lista-kontaktów.php

Zezwalaj na wszystko oprócz pewnych wzorców adresów URL

Czasami możesz chcieć zabronić niektórych wzorców adresów URL. Może to być strona testowa, dowolna wewnętrzna strona wyszukiwania itp.

Agent użytkownika: *

Umożliwić: /

#nie zezwalaj na wzorce adresów URL

Nie zezwalaj: /*szukaj=

Nie zezwalaj: /*test.php$

W powyższych warunkach znalazłeś wiele symboli i znaków. Tutaj wyjaśniam, co tak naprawdę oznacza każdy z nich

Symbol gwiazdki (*) reprezentuje dowolną liczbę znaków lub pojedynczy znak.
Symbol dolara ($) oznacza koniec adresu URL. Jeśli zapomniałeś go umieścić, przypadkowo zablokujesz ogromną liczbę adresów URL

Uwaga : – uważaj, aby nie zablokować całej domeny. Czasami możesz zobaczyć takie polecenie

Agent użytkownika: *

Uniemożliwić: /

Wiesz co to oznacza? Mówisz, że wyszukiwarka nie zezwala na całą twoją domenę. Nie będzie więc indeksować żadnej z Twoich stron internetowych i nie możesz znaleźć się w żadnym wyniku wyszukiwania. Uważaj więc, aby nie umieścić tego przypadkowo.

Testy końcowe:

Ważne jest, aby sprawdzić, czy plik robots.txt działa, czy nie. Nawet jeśli zrobiłeś to dobrze, zalecane jest odpowiednie sprawdzenie

Możesz użyć narzędzia Google robots.txt, aby sprawdzić, czy wszystko jest w porządku z Twoim plikiem. Najpierw musisz zarejestrować witrynę, w której stosujesz plik robots.txt w narzędziu Google dla webmasterów. Po rejestracji zaloguj się do tego narzędzia i wybierz swoją witrynę. Teraz Google wyświetli wszystkie notatki, aby pokazać błąd.

Jak sprawdzić, czy Twoja witryna posiada plik robot.txt?

Możesz to łatwo sprawdzić. Weźmy poprzedni przykład prasy słów. Wpisz adres swojej witryny www.wordpress.com i dodaj do niego /robots.txt. tj. www.wordpress.com/robots.txt. Teraz możesz sprawdzić, czy Twoja witryna ma plik robotts.txt, czy nie.

Inne szybkie wskazówki dotyczące pliku robot.txt:

Jeśli umieścisz plik robots.txt w głównym katalogu witryny, łatwo zostaniesz zauważony
Jeśli zabroniłeś dowolnego podkatalogu, każdy plik lub strona internetowa w podkatalogu zostanie zabroniona
W pliku Robots.txt rozróżniana jest wielkość liter. Musisz wpisać go jako robots.txt. W przeciwnym razie to nie zadziała
Niektóre programy użytkownika mogą ignorować plik robots.txt. Niektóre roboty indeksujące, takie jak skrobaki poczty e-mail lub złośliwe roboty itp., mogą ignorować ten plik
Plik /robots.txt jest publicznie dostępny. Dlatego lepiej nie ukrywać żadnych prywatnych informacji o użytkowniku. Jeśli dodasz /robots.txt na końcu dowolnej domeny głównej, zobaczysz strony, które chcesz zaindeksować lub nie, jeśli zawiera plik robot.txt.
Zidentyfikowanie niedozwolonego adresu URL i usunięcie go z indeksu zajmuje wyszukiwarce kilka dni
Każda subdomena w katalogu głównym używa osobnego pliku robots.txt. Na przykład blog.wordpress.com i wordpress.com używają oddzielnych plików robots.txt. czyli blog.wordpress.com/robots.txt i wordpress.com/robots.txt
Lepiej dodać lokalizację do dowolnej mapy witryny na dole pliku robots.txt

Masz pomysł na koncepcję? To proste, prawda? Możesz zastosować to do swojej witryny i poprawić jej wydajność. Nie musisz pokazywać wszystkiego na swojej stronie. Możesz ukryć swoje strony administracyjne lub warunki itp. przed użytkownikami. Pomoże Ci w tym plik robots.txt. Używaj go mądrze, aby wskazać mapę witryny i przyspieszyć indeksowanie witryny.

Robot.txt to nie tylko blokowanie niechcianych treści lub plików. Jest to również bardzo istotne dla szybszego pobierania. Możesz to zrobić łatwo. Nie ma nic związanego z wiedzą techniczną, aby wykonać to zadanie. Każdy może to zrobić po bardzo dobrej analizie. Po zastosowaniu nie zapomnij przetestować go narzędziem Google.robot.txt. Pomaga określić, czy w dodanym tekście są jakieś błędy, czy nie.

Bardzo ważne jest aktualizowanie się we wszystkich aspektach SEO. Ponieważ jesteś na rynku, na którym codziennie dzieją się nowe zmiany, musisz wiedzieć o wszystkim, co dzieje się wokół Ciebie. Spróbuj wdrożyć najnowocześniejsze techniki, aby Twoja witryna odniosła ogromny sukces.