Panduan mendalam Ke File Robots.txt

Diterbitkan: 2020-08-10

Robots.txt adalah file yang sangat kuat yang dapat ditambahkan ke situs web Anda untuk membantu mengontrol area mana dari mesin pencari situs Anda yang harus dirayapi dan area mana yang harus diabaikan. Penting untuk meninjau robots.txt Anda secara teratur untuk memastikan bahwa robots.txt adalah yang terbaru dan jika mungkin gunakan alat pemantauan untuk diberi tahu saat terjadi perubahan.

Di Semetrical, sebagai bagian dari penawaran layanan SEO teknis kami, kami akan mengaudit file robots.txt klien saat melakukan audit teknis situs web klien untuk memeriksa apakah jalur yang diblokir seharusnya. Selain itu, jika tim SEO menemukan masalah sebagai bagian dari proses audit teknis SEO seperti duplikasi, aturan robots.txt baru dapat ditulis dan ditambahkan ke file.

Karena robots.txt adalah file penting, kami telah menyusun panduan yang mencakup apa sebenarnya itu, mengapa seseorang dapat menggunakannya dan jebakan umum yang dapat terjadi saat menulis aturan.

Apa itu file robots.txt?

File robots.txt adalah port panggilan pertama untuk crawler saat mengunjungi situs web Anda. Ini adalah file teks yang mencantumkan instruksi untuk agen pengguna yang berbeda yang pada dasarnya memberi tahu perayap web bagian mana dari situs yang harus dirayapi dan mana yang harus diabaikan. Instruksi utama yang digunakan dalam file robots.txt ditentukan oleh aturan “allow” atau “disallow”.

Secara historis aturan "noindex" juga akan berfungsi, namun pada tahun 2019 Google berhenti mendukung arahan noindex karena itu adalah aturan yang tidak dipublikasikan.

Jika file tidak digunakan dengan benar, itu dapat merusak situs web Anda dan dapat menyebabkan penurunan lalu lintas dan peringkat yang besar. Misalnya, kesalahan dapat terjadi ketika seluruh situs web diblokir dari mesin telusur atau sebagian situs diblokir karena kesalahan. Ketika ini terjadi, peringkat yang terhubung ke bagian situs itu secara bertahap akan turun dan lalu lintas pada gilirannya akan turun.

Apakah Anda benar-benar membutuhkan file robots.txt?

Tidak, tidak wajib memiliki robot.txt di situs web Anda terutama untuk situs web kecil dengan URL minimal tetapi sangat disarankan untuk situs web menengah hingga besar. Di situs besar, lebih mudah untuk mengontrol bagian mana dari situs Anda yang dapat diakses dan bagian mana yang harus diblokir dari perayap. Jika file tersebut tidak ada, situs web Anda umumnya akan dirayapi dan diindeks seperti biasa.

Untuk apa file robots txt terutama digunakan?

Robots.txt memiliki banyak kasus penggunaan dan di Semetrical kami telah menggunakannya untuk skenario di bawah ini:

Memblokir hasil pencarian internal karena halaman ini biasanya tidak berharga bagi crawler dan dapat menyebabkan banyak duplikasi di seluruh situs web.
Memblokir bagian navigasi faset jika faset tertentu tidak berharga dari perspektif SEO tetapi masih diperlukan untuk UX saat pengguna berada di situs web Anda.
Memblokir level navigasi faset yang berbeda, di mana satu level faset mungkin berguna untuk mesin telusur tetapi saat menggabungkan dua filter faset yang berbeda, filter tersebut mungkin menjadi tidak relevan untuk dirayapi dan diindeks oleh mesin telusur.
Memblokir parameter yang menyebabkan duplikasi atau membuang anggaran perayapan. Ini sedikit kontroversial karena orang lain mungkin memberi tahu Anda untuk tidak memblokir parameter di robots.txt tetapi ini berhasil di sejumlah situs web klien kami di mana parameter diperlukan tetapi perayap tidak perlu merayapinya. Sangat disarankan untuk memeriksa bahwa parameter apa pun yang Anda blokir tidak memiliki tautan berharga atau peringkat untuk kata kunci berharga apa pun yang menghasilkan lalu lintas.
Memblokir bagian pribadi situs web seperti halaman checkout dan bagian login.
Menyertakan lokasi peta situs XML Anda untuk memudahkan perayap mengakses semua URL di situs web Anda.
Untuk mengizinkan hanya bot tertentu yang mengakses dan merayapi situs Anda.
Memblokir konten buatan pengguna yang tidak dapat dimoderasi.

Di mana menempatkan robots txt & Bagaimana cara menambahkannya ke situs Anda?

File robots.txt harus ditempatkan di root situs web Anda, misalnya, di situs Semetrical, file tersebut berada di www.semetrical.com/robots.txt dan harus diberi nama robots.txt. Sebuah situs web hanya dapat memiliki satu robots.txt dan harus dalam file teks yang disandikan UTF-8 yang menyertakan ASCII.

Jika Anda memiliki subdomain seperti blog.example.com maka robots.txt dapat berada di root subdomain seperti blog.example.com/robots.txt.

Seperti apa file robots.txt?

File robots.txt tipikal akan terdiri dari berbagai komponen dan elemen yang meliputi:

Agen pengguna
Melarang
Mengizinkan
Penundaan perayapan
peta situs
Komentar (Kadang-kadang Anda mungkin melihat ini)

Di bawah ini adalah contoh robots.txt Semetrcals yang menyertakan agen pengguna, aturan larangan, dan peta situs.

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /comments/feed/ Disallow: /trackback/ Disallow: /index.php/ Disallow: /xmlrpc.php Disallow: /blog-documentation/ Disallow: /test/ Disallow: /hpcontent/ Sitemap: https://devsemetrical.wpengine.com/sitemap.xml

Agen pengguna

User-agent mendefinisikan awal dari sekelompok arahan. Ini sering diwakili dengan wildcard (*) yang menandakan bahwa instruksi di bawah ini adalah untuk semua bot yang mengunjungi situs web. Contohnya adalah:

Agen pengguna: *

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/

Akan ada saat-saat ketika Anda mungkin ingin memblokir bot tertentu atau hanya mengizinkan bot tertentu mengakses halaman tertentu. Untuk melakukan ini, Anda perlu menentukan nama bot sebagai agen pengguna. Contohnya adalah:

 User-agent: AdsBot-Google Disallow: /checkout/reserve Disallow: /resale/checkout/order Disallow: /checkout/reserve_search

Agen-pengguna umum yang harus diperhatikan meliputi:

Ada juga kemampuan untuk memblokir perangkat lunak tertentu agar tidak merayapi situs web Anda atau menunda berapa banyak URL yang dapat dirayapi per detik karena setiap alat akan memiliki agen pengguna sendiri yang merayapi situs Anda. Misalnya, jika Anda ingin memblokir SEMRush atau Ahrefs agar tidak merayapi situs web Anda, di bawah ini akan ditambahkan ke file Anda:

 User-agent: SemrushBot Disallow: * User-agent: AhrefsBot Disallow: *

Jika Anda ingin menunda jumlah URL yang dirayapi, aturan di bawah ini akan ditambahkan ke file Anda:

 User-agent: AhrefsBot Crawl-Delay: [value] User-agent: SemrushBot Crawl-Delay: [value]

Arahan larang

Disallow directive adalah aturan yang dapat dimasukkan pengguna ke dalam file robots.txt yang akan memberi tahu mesin telusur untuk tidak merayapi jalur atau kumpulan URL tertentu bergantung pada aturan yang dibuat. Mungkin ada satu atau beberapa baris aturan larangan dalam file karena Anda mungkin ingin memblokir beberapa bagian situs web.

Jika arahan disallow kosong dan tidak menentukan apa pun, bot dapat merayapi seluruh situs web, jadi untuk memblokir jalur tertentu atau seluruh situs web Anda, Anda perlu menentukan awalan URL atau garis miring “/”. Misalnya dalam contoh di bawah ini, kami memblokir URL apa pun yang keluar dari jalur /cgi-bin/ atau /wp-admin/.

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/

Jika Anda ingin memblokir seluruh situs web Anda dari bot seperti Google, maka Anda perlu menambahkan arahan larangan diikuti dengan garis miring. Biasanya Anda mungkin hanya perlu melakukan ini pada lingkungan staging ketika Anda tidak ingin situs staging ditemukan atau diindeks. Contoh akan terlihat seperti:

 User-agent: * Disallow: /

Izinkan arahan

Sebagian besar mesin pencari akan mematuhi perintah izinkan di mana pada dasarnya akan melawan perintah larangan. Misalnya, jika Anda memblokir /wp-admin/ biasanya akan memblokir semua URL yang keluar dari jalur tersebut, namun, jika ada aturan izinkan untuk /wp-admin/admin-ajax.php maka bot akan merayapi / admin-ajax.php tetapi blokir jalur lain yang berjalan dari /wp-admin/. Lihat contoh di bawah ini:

 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php

Penundaan Perayapan

Arahan penundaan perayapan membantu memperlambat laju bot yang akan merayapi situs web Anda. Tidak semua mesin pencari akan mengikuti arahan penundaan perayapan karena ini adalah aturan tidak resmi.

– Google tidak akan mengikuti arahan ini

– Baidu tidak akan mengikuti arahan ini

– Bing dan Yahoo mendukung arahan penundaan perayapan di mana aturan menginstruksikan bot untuk menunggu “n” detik setelah tindakan perayapan.

– Yandex juga mendukung arahan penundaan perayapan tetapi menafsirkan aturan sedikit berbeda di mana ia hanya akan mengakses situs Anda sekali dalam setiap “n” detik”.

Contoh direktif penundaan perayapan di bawah ini:

 User-agent: BingBot Disallow: /wp-admin/ Crawl-delay: 5

Petunjuk Peta Situs

Arahan peta situs dapat memberi tahu mesin telusur di mana menemukan peta situs XML Anda dan memudahkan mesin telusur yang berbeda untuk menemukan URL di situs web Anda. Mesin pencari utama yang akan mengikuti arahan ini termasuk, Google, Bing, Yandex dan Yahoo.

Disarankan untuk menempatkan arahan peta situs di bagian bawah file robots.txt Anda. Contohnya di bawah ini:

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /comments/feed/ Sitemap: https://devsemetrical.wpengine.com/sitemap.xml

Komentar

File robots.txt dapat menyertakan komentar tetapi keberadaan komentar hanya untuk manusia dan bukan bot karena apa pun setelah tagar akan diabaikan. Komentar dapat berguna karena berbagai alasan yang meliputi:

– Memberikan alasan mengapa aturan tertentu ada

– Referensi yang menambahkan aturan

– Referensi bagian situs mana yang menjadi aturan

- Menjelaskan apa yang dilakukan aturan

– Di bawah ini menunjukkan contoh komentar di file robots.txt yang berbeda:

 #Student Disallow: /student/*-bed-flats-* Disallow: /student/*-bed-houses* Disallow: /comments/feed/ #Added by Semetrical Disallow: /jobs*/full-time/* Disallow: /jobs*/permanent/* #International Disallow: */company/fr/* Disallow: */company/de/*

Apakah urutan aturan itu penting?

Urutan aturan tidak penting, namun ketika beberapa aturan izinkan dan larangan berlaku untuk URL, aturan jalur pencocokan terpanjang adalah aturan yang diterapkan dan lebih diutamakan daripada aturan pendek yang kurang spesifik. Jika kedua jalur memiliki panjang yang sama, maka aturan yang kurang restriktif akan digunakan. Jika Anda memerlukan jalur URL tertentu untuk diizinkan atau tidak diizinkan, Anda dapat membuat aturan lebih panjang dengan menggunakan “*” untuk membuat string lebih panjang. Misalnya, Disallow: ********/make-longer

Di situs web Google sendiri, mereka telah mencantumkan serangkaian contoh situasi yang menunjukkan aturan prioritas yang didahulukan. Tabel di bawah ini diambil dari Google.

Bagaimana cara memeriksa file robots.txt Anda?

Selalu penting untuk memeriksa dan memvalidasi file robots.txt Anda sebelum mengaktifkannya karena memiliki aturan yang salah dapat berdampak besar pada situs web Anda.

Cara terbaik untuk menguji adalah membuka alat penguji robots.txt di Search Console dan menguji berbagai URL yang harus diblokir dengan aturan yang ada. Ini juga merupakan cara yang bagus untuk menguji aturan baru yang ingin Anda tambahkan ke file.

Contoh penggunaan ekspresi reguler di robots.txt

Saat membuat aturan di file robots.txt, Anda dapat menggunakan pencocokan pola untuk memblokir rentang URL dalam satu aturan larangan. Ekspresi reguler dapat digunakan untuk melakukan pencocokan pola dan dua karakter utama yang dipatuhi oleh Google dan Bing meliputi:

Tanda dolar ($) yang cocok dengan akhir URL
Asterisk (*) yang merupakan aturan wildcard yang mewakili urutan karakter apa pun.

Contoh pencocokan pola di Semetrical:

 Disallow: */searchjobs/*

Ini akan memblokir URL apa pun yang menyertakan jalur /searchjobs/ seperti: www.example.com/searchjobs/construction. Ini diperlukan untuk klien karena bagian pencarian situs mereka perlu diblokir sehingga mesin pencari tidak akan merayapi dan mengindeks bagian situs tersebut.

 Disallow: /jobs*/full-time/*

Ini akan memblokir URL yang menyertakan jalur setelah /jobs/ diikuti oleh /full-time/ seperti

www.example.com/jobs/admin-secretarial-and-pa/full-time/

. Dalam skenario ini kita membutuhkan waktu penuh sebagai filter untuk UX tetapi untuk mesin pencari tidak perlu halaman diindeks untuk memenuhi "jabatan" + "penuh waktu".

 Disallow: /jobs*/*-000-*-999/*

Ini akan memblokir URL yang menyertakan filter gaji seperti

www.example.com/jobs/city-of-bristol/-50-000-59-999/

. Dalam skenario ini, kita memerlukan filter gaji tetapi mesin pencari tidak perlu merayapi halaman gaji dan mengindeksnya.

 Disallow: /jobs/*/*/flexible-hours/

Ini akan memblokir URL yang menyertakan jam fleksibel dan menyertakan dua jalur faset di antaranya. Dalam skenario ini kami menemukan melalui penelitian kata kunci bahwa pengguna dapat mencari lokasi + jam fleksibel atau pekerjaan + jam fleksibel tetapi pengguna tidak akan mencari "jabatan" + "lokasi" + "jam fleksibel". Contoh URL terlihat seperti

www.example.com/jobs/admin-secretarial-and-pa/united-kingdom/flexible-hours/

 Disallow: */company/*/*/*/people$

Ini akan memblokir URL yang menyertakan tiga jalur antara perusahaan dan orang serta URL yang diakhiri dengan orang. Contohnya adalah

www.example.com/company/gb/04905417/company-check-ltd/people

 Disallow: *?CostLowerAsNumber=*

Aturan ini akan memblokir filter parameter yang memesan harga.

 Disallow: *?Radius=* Disallow: *?radius=*

Kedua aturan ini memblokir bot agar tidak merayapi URL parameter yang mengubah radius penelusuran pengguna. Baik aturan huruf besar dan huruf kecil ditambahkan karena situs menyertakan kedua versi.

Hal-hal yang harus diperhatikan dengan robots.txt

Robots.txt peka huruf besar/kecil sehingga Anda perlu menggunakan huruf besar/kecil yang benar dalam aturan Anda, Misalnya, /hello/ akan diperlakukan berbeda dengan /Hello/.
Agar mesin telusur seperti Google meng-cache ulang robots.txt Anda lebih cepat guna menemukan aturan baru, Anda dapat memeriksa URL robots.txt di Search Console dan meminta pengindeksan.
Jika situs web Anda bergantung pada robots.txt dengan sejumlah aturan dan URL robots.txt Anda menyajikan kode status 4xx untuk jangka waktu yang lama, aturan akan diabaikan dan halaman yang diblokir akan dapat diindeks. Penting untuk memastikan selalu menyajikan kode status 200.
Jika situs web Anda sedang down maka pastikan robots.txt mengembalikan kode status 5xx karena mesin pencari akan memahami bahwa situs tersebut sedang down untuk pemeliharaan dan mereka akan kembali merayapi situs web lagi di kemudian hari.
Saat URL sudah diindeks dan larangan kemudian ditambahkan ke situs web Anda untuk menghapus URL tersebut dari indeks, mungkin perlu beberapa saat agar URL tersebut dihapus dan dihapus. Selain itu, URL masih dapat berada di indeks untuk sementara waktu tetapi deskripsi meta akan menampilkan pesan seperti “Deskripsi untuk hasil ini tidak tersedia karena robots.txt situs ini – pelajari lebih lanjut”.
Aturan larangan robots.txt tidak selalu menjamin bahwa halaman tidak akan muncul di hasil pencarian karena Google mungkin masih memutuskan, berdasarkan faktor eksternal seperti tautan masuk, bahwa halaman itu relevan dan harus diindeks.
Jika Anda memiliki aturan larangan dan juga menempatkan tag "tidak ada indeks" di dalam kode sumber halaman, "tidak ada indeks" akan diabaikan karena mesin pencari tidak dapat mengakses halaman untuk menemukan tag "tidak ada indeks".
Aturan larangan pada halaman yang diindeks, terutama yang memiliki tautan masuk berarti Anda akan kehilangan ekuitas tautan dari tautan balik yang seharusnya diteruskan untuk memberi manfaat pada halaman lain. Inilah sebabnya mengapa penting untuk memeriksa apakah halaman memiliki tautan balik sebelum menambahkan aturan larangan.
Jika garis miring di depan jalur tidak ada saat menulis aturan izinkan atau larang, maka aturan tersebut akan diabaikan. Misalnya, “Larang: searchjobs.

Jika Anda ingin berbicara dengan salah satu spesialis SEO teknis kami di Semetrical, silakan kunjungi halaman layanan SEO teknis kami untuk informasi lebih lanjut.