Cara Membuat File Robots.txt yang Bagus untuk Situs Anda

Diterbitkan: 2018-07-09

Robots.txt – Ini lebih merupakan topik teknis. File robots.txt bisa menjadi istilah baru bagi sebagian besar orang. Sebenarnya, ini adalah teks kecil yang menentukan masa depan situs web Anda.

Bagaimana mungkin?

Hal ini mungkin. Teks kecil ini dapat mengontrol lalu lintas situs Anda. Jika Anda memasukkannya sebagai salah maka halaman Anda mungkin tidak ada dalam hasil pencarian. Jadi, penting untuk mengetahui cara menggunakannya dengan benar.

Ini adalah salah satu metode SEO sederhana dan termudah yang dapat Anda terapkan ke situs Anda. Tidak perlu pengetahuan teknis untuk mengontrol kekuatan robots.txt. Jika Anda dapat menemukan kode sumber maka itu mudah.

File Robots.txt

Juga, dengan menempatkan robots.txt di mana saja di situs tidak akan membantu. Untuk itu, Anda harus terlebih dahulu menemukan kode sumber dan menyimpannya di sana. Maka hanya perayap web yang dapat mengidentifikasi instruksi Anda dan bertindak sesuai dengan itu.

Dari artikel ini Anda akan mendapatkan jawaban atas pertanyaan-pertanyaan berikut:

  • Apa itu file robots.txt?
  • Penggunaan file robot.txt
  • Bagaimana cara kerjanya?
  • Bagaimana cara membuatnya?
  • Pentingnya file robots.txt?
  • Apa yang harus disertakan dalam file ini?

Pertama, izinkan saya menjelaskan istilahnya

Apa itu File Robots.txt?

Robots.txt adalah file teks yang terletak di direktori root situs. Ini mengontrol perayap dan laba-laba mesin pencari dalam mengunjungi situs web tertentu. Artinya memberitahu mesin pencari tentang halaman website yang ingin dikunjungi atau tidak dikunjungi.

Setiap pemilik situs web mencoba untuk diperhatikan saat ini. Anda dapat melakukan ini menggunakan teks kecil ini. Ini membantu untuk memasukkan atau mengecualikan halaman tertentu dari hasil pencarian. Anda akan mendapatkan ide tentang ini setelah membaca artikel ini.

Saat perayap mengakses situs, hal pertama yang diminta adalah file 'robots.txt'. Jika ada file seperti itu maka pergi ke petunjuk indeksasi untuk prosedur lebih lanjut.

Jika Anda belum menambahkan file robots.txt maka mesin pencari dapat dengan mudah menjelajah ke situs Anda di mana saja dan mengindeks semua yang ditemukan di situs Anda. Tapi itu adalah praktik yang baik untuk menentukan peta situs Anda. Itu memudahkan mesin pencari untuk menemukan konten baru tanpa penundaan.

Kegunaan robots.txt:

  • Anda dapat menghindari halaman duplikat menggunakan teks ini
  • Jika Anda tidak ingin mesin pencari mengindeks halaman hasil pencarian internal Anda, Anda dapat menggunakan teks ini
  • Gunakan jika Anda tidak ingin mesin pencari mengindeks area tertentu dari halaman web Anda atau seluruh situs
  • Anda dapat menghindari pengindeksan gambar atau file tertentu
  • Anda dapat menavigasi mesin telusur ke peta situs Anda
  • Anda dapat menggunakan penundaan perayapan untuk mencegah server kelebihan beban saat perayap memuat beberapa konten sekaligus.

Hanya gunakan robots.txt kapan pun Anda perlu mengontrol akses ke halaman tertentu. Jika tidak ada yang seperti itu, Anda tidak perlu menggunakannya

Cara kerja file Robots.txt:

Sebuah mesin pencari memiliki dua fungsi utama.

  1. Merangkak situs web untuk menemukan konten
  2. Mengindeks konten itu untuk melayani pencari yang mencari informasi tertentu

Mesin pencari merangkak dari satu situs ke situs lain. Dengan demikian, ia merayapi miliaran situs. Proses crawling disebut juga dengan spidering.

Setelah tiba di sebuah situs web dan sebelum merayap dari satu situs ke situs lainnya, crawler pencarian mencari file robots.txt. Jika menemukannya maka perayap membacanya terlebih dahulu sebelum melanjutkan di situs itu. File robots.txt ini berisi instruksi untuk web crawler. Dikatakan apakah akan dilanjutkan atau tidak. Jika crawler tidak dapat menemukan petunjuk atau informasi tentang apa yang harus dilakukan, maka crawler akan melanjutkan untuk aktivitas lebih lanjut.

Ke mana robots.txt akan pergi?

Robots.txt adalah hal pertama yang dilihat WebCrawler atau mesin pencari ketika mengunjungi sebuah situs. Itu hanya terlihat di direktori utama. Jika tidak ditemukan di sana, crawler melanjutkan dengan semua yang ada di situs. Jadi sangat penting untuk menempatkan file robot.txt di direktori utama atau domain root .

Untuk menjelaskannya mari kita ambil contoh wordpress.com. Jika agen pengguna mengunjungi www.wordpress.com/robots.txt dan jika tidak ada file robot maka diasumsikan bahwa situs tersebut tidak memiliki instruksi. Jadi itu mulai mengindeks setiap halaman. file Jika robot ada di www.wordpress.com /index/robots.text atau agen pengguna www.wordpress.com/homepage/robots.txt tidak akan menemukannya. Ini akan diperlakukan sebagai situs tanpa robot.txt.

Langkah-langkah Membuat file Robots.txt?

File robots.txt berisi dua bidang; satu baris dengan nama agen pengguna atau beberapa baris dengan arahan. Baris kedua menunjukkan tindakan apa yang harus dilakukan perayap di situs web. Mari kita periksa cara membuat file robots.txt

  • Langkah pertama adalah membuka file teks baru. Anda dapat menggunakan Notepad untuk PC dan editor teks untuk Mac dan menyimpannya sebagai file teks terlampir
  • Unggah ke direktori root Anda. Ini adalah folder tingkat root yang disebut 'htdocs' atau 'www'. Jadi ini datang tepat setelah nama domain Anda.
  • Jika ada subdomain, buat untuk setiap subdomain

Berikut adalah format dasar robots.txt

Agen-pengguna : [nama-agen-pengguna]

Disallow : [nama string URL yang tidak boleh dirayapi]

Ini pada dasarnya dikenal sebagai file robots.txt. Mungkin ada beberapa baris dan arahan pengguna. Itu bisa apa saja mulai dari mengizinkan, melarang, penundaan perayapan, dll

Istilah teknis di robots.txt:

Ada beberapa kata umum yang terkait dengan bahasa robots.txt. Mereka dikenal sebagai sintaks robots.txt. Lima kata utama biasanya digunakan dalam file robots.txt. Mereka:

Agen pengguna :

Agen-pengguna adalah perayap web atau mesin telusur yang Anda beri instruksi.

Melarang:

Perintah ini memberikan instruksi kepada crawler untuk tidak meng-crawl URL tertentu. Setiap URL dapat menggunakan satu-satunya baris yang dilarang.

Mengizinkan:

Perintah ini hanya digunakan untuk Google Bot. Dengan memberikan perintah ini, bot Google dapat mengakses subfolder atau halaman tersebut meskipun halaman induknya tidak diizinkan.

Penundaan perayapan:

Ini menunjukkan waktu tunggu sebelum memuat dan merayapi konten halaman. Ini tidak akan berfungsi untuk bot Google tetapi Anda dapat mengatur waktu untuk konsol Pencarian Google

Peta Situs:

Ini digunakan untuk memanggil lokasi peta situs XML apa pun yang terkait dengan URL. Ini hanya didukung oleh Google, Yahoo, Bing dan Ask.

Ini adalah istilah paling umum yang harus Anda ketahui dalam sintaks robot.txt. Sekarang Anda dapat memprediksi perintah hanya dengan melihat file robots.txt

Apa yang harus disertakan dalam file Robots.txt?

Robot.txt hanya memberikan instruksi untuk robot web tentang mengakses atau tidak mengakses apa pun. Jika Anda tidak ingin menampilkan halaman web apa pun kepada pengguna, Anda dapat memberikan arahan ke crawler menggunakan file robots.txt. Jika tidak, Anda dapat melindunginya menggunakan kata sandi. Seperti ini, Anda dapat menyembunyikan lokasi admin atau halaman pribadi mana pun. Ini mencegah perayapan robot ke halaman pribadi tersebut.

Sekarang mari kita periksa bagaimana melakukannya dengan beberapa contoh

  • Izinkan semuanya dan kirimkan peta situs:

Ini adalah pilihan yang baik untuk semua situs. Hal ini memungkinkan mesin pencari untuk merangkak di mana-mana dan mengindeks semua data. Ini juga memungkinkan menampilkan lokasi XML sehingga perayap dapat dengan mudah mengakses halaman baru

Agen pengguna:*

Mengizinkan: /

#referensi peta situs

Peta Situs: www.wordpress.com/sitemap.xml

  • Izinkan semuanya kecuali satu subdirektori

Terkadang akan ada area di halaman Anda yang tidak ingin Anda tampilkan di hasil pencarian. Itu bisa berupa gambar, area checkout, file, bagian audit, dll. Anda dapat melarangnya

Agen pengguna: *

Mengizinkan: /

# subdirektori tidak diizinkan

Larang: /checkout/

Larang: /gambar/

Larang:/laporan audit/

  • Izinkan semuanya selain dari file tertentu: -

Terkadang Anda mungkin ingin menampilkan media atau gambar di situs web Anda atau menunjukkan dokumen. Tapi Anda tidak ingin mereka muncul di hasil pencarian. Anda dapat menyembunyikan file animasi, gif, pdf atau file PHP seperti yang ditunjukkan di bawah ini

Agen pengguna:*

Mengizinkan: /

#Larang jenis file

Larang: /*.gif$

Larang: /*.pdf$

Larang: /*.php$

  • Izinkan semuanya selain dari Halaman Web tertentu: -

Terkadang Anda mungkin ingin menyembunyikan beberapa halaman yang tidak cocok untuk dibaca, bisa berupa apa saja dari syarat dan ketentuan Anda atau topik sensitif apa pun yang tidak ingin Anda tunjukkan kepada orang lain. Anda dapat menyembunyikannya sebagai berikut

Agen pengguna: *

Mengizinkan: /

#larang halaman web

Larang: /terms.html

Larang:/ daftar-rahasia-kontak.php

  • Izinkan semuanya kecuali pola URL tertentu

Terkadang Anda mungkin ingin melarang pola URL tertentu. Itu bisa berupa halaman pengujian, halaman pencarian internal, dll

Agen pengguna: *

Mengizinkan: /

#larang pola URL

Larang: /*search=

Larang: /*test.php$

Dalam kondisi di atas, Anda menemukan banyak simbol dan karakter. Di sini saya menjelaskan apa sebenarnya arti masing-masing dari mereka

  • Simbol bintang (*) mewakili sejumlah karakter atau satu karakter.
  • Simbol dolar ($) menunjukkan akhir dari URL. Jika Anda lupa meletakkannya maka Anda akan memblokir sejumlah besar URL secara tidak sengaja

Catatan : – berhati-hatilah untuk tidak melarang seluruh domain. Terkadang Anda dapat melihat perintah seperti ini

Agen pengguna: *

Larang: /

Apakah Anda tahu apa artinya ini? Anda mengatakan mesin pencari untuk melarang seluruh domain Anda. Jadi, itu tidak akan mengindeks halaman web Anda dan Anda tidak dapat berada di hasil pencarian apa pun. Jadi berhati-hatilah untuk tidak menempatkan ini secara tidak sengaja.

Pengujian Akhir:

Penting untuk memeriksa apakah file robots.txt Anda berfungsi atau tidak. Bahkan jika Anda telah melakukannya dengan benar, pemeriksaan yang tepat direkomendasikan

Anda dapat menggunakan alat robots.txt Google untuk mengetahui apakah file Anda baik-baik saja. Pertama, Anda perlu mendaftarkan situs tempat Anda menerapkan file robots.txt di alat webmaster Google. Setelah mendaftar masuk ke alat itu dan pilih situs khusus Anda. Sekarang, Google akan menampilkan semua catatan untuk menunjukkan kesalahan.

Bagaimana cara memeriksa apakah situs Anda memiliki file robot.txt?

Anda dapat memeriksa ini dengan mudah. Mari kita ambil contoh word press sebelumnya. Ketik alamat situs web Anda www.wordpress.com dan tambahkan /robots.txt dengannya. yaitu, www.wordpress.com/robots.txt. Sekarang, Anda dapat melihat apakah situs Anda memiliki file roborts.txt atau belum.

Tip robot.txt cepat lainnya:

  • Jika Anda menempatkan robots.txt di direktori tingkat atas situs web, mudah untuk dicatat
  • Jika Anda melarang subdirektori apa pun, maka file atau halaman web apa pun di dalam subdirektori akan dilarang
  • Robots.txt peka huruf besar/kecil. Anda harus memasukkannya sebagai robots.txt. Kalau tidak, itu tidak akan berhasil
  • Beberapa agen pengguna mungkin mengabaikan file robots.txt Anda. Beberapa perayap seperti pengikis email atau robot malware dll mungkin mengabaikan file ini
  • /robots.txt tersedia untuk umum. Jadi lebih baik untuk tidak menyembunyikan informasi pengguna pribadi. Jika Anda menambahkan /robots.txt ke akhir domain root apa pun, Anda dapat melihat halaman yang ingin dirayapi atau tidak ingin dirayapi, jika memiliki file robot.txt.
  • Dibutuhkan beberapa hari bagi mesin pencari untuk mengidentifikasi URL yang tidak diizinkan dan menghapusnya dari indeksnya
  • Setiap subdomain di root menggunakan file robots.txt terpisah. Misalnya, blog.wordpress.com dan wordpress.com menggunakan file robots.txt terpisah. yaitu, blog.wordpress.com/robots.txt dan wordpress.com/robots.txt
  • Lebih baik menambahkan lokasi ke peta situs apa pun di bagian bawah file robots.txt

Apakah Anda sudah mendapat gambaran tentang konsepnya? Ini sederhana bukan? Anda dapat menerapkan ini ke situs Anda dan meningkatkan kinerjanya. Tidak perlu menampilkan semua yang ada di situs Anda. Anda dapat menyembunyikan halaman admin atau syarat dan ketentuan dll dari pengguna. File robots.txt akan membantu Anda dalam hal itu. Gunakan dengan bijak untuk menunjukkan peta situs dan membuat pengindeksan situs Anda lebih cepat.

Robot.txt bukan hanya tentang melarang konten atau file yang tidak diinginkan. Ini sangat penting untuk mengunduh lebih cepat juga. Anda dapat melakukan ini dengan mudah. Tidak ada yang berhubungan dengan pengetahuan teknis untuk melakukan tugas ini. Siapa pun dapat melakukan ini setelah analisis yang sangat baik. Setelah menerapkan ini jangan lupa untuk mengujinya dengan alat Google.robot.txt. Ini membantu Anda untuk mengidentifikasi apakah ada kesalahan dalam teks yang Anda tambahkan atau tidak.

Sangat penting untuk memperbarui diri Anda pada semua aspek SEO. Saat Anda berada di pasar di mana perubahan baru terjadi setiap hari, Anda harus tahu tentang segala sesuatu yang terjadi di sekitar Anda. Cobalah untuk menerapkan teknik paling modern untuk membuat situs Anda sukses besar.