如何為您的網站創建一個好的 Robots.txt 文件

已發表: 2018-07-09

Robots.txt——它更像是一個技術話題。 Robots.txt 文件對於大多數人來說可能是一個新名詞。 實際上,它是決定您網站未來的一個小文本。

這怎麼可能?

有可能的。 這個小文本可以控制您的網站流量。 如果輸入錯誤,則您的頁面可能不在搜索結果中。 因此,重要的是要知道如何正確使用它。

這是您可以應用於您的網站的最簡單、最簡單的 SEO 方法之一。 它不需要任何技術知識來控制 robots.txt 的力量。 如果你能找到源代碼,那就很容易了。

Robots.txt 文件

此外,將 robots.txt 放在網站上的任何位置都無濟於事。 為此,您必須首先找到源代碼並將其保留在那裡。 然後只有網絡爬蟲才能識別您的指令並採取相應的行動。

從這篇文章中,您將得到以下問題的答案:

  • 什麼是 robots.txt 文件?
  • robots.txt 文件的用途
  • 它是如何工作的?
  • 如何創建它?
  • robots.txt 文件的重要性?
  • 在這個文件中包含什麼?

首先,讓我解釋一下這個術語

什麼是 Robots.txt 文件?

Robots.txt 是一個文本文件,位於站點的根目錄中。 它控制搜索引擎爬蟲和蜘蛛訪問特定網站。 這意味著它告訴搜索引擎想要訪問或不訪問的網站頁面。

如今,每個網站所有者都試圖引起注意。 您可以使用這個小文本來執行此操作。 它有助於在搜索結果中包含或排除特定頁面。 閱讀本文後,您將對此有所了解。

當爬蟲訪問一個站點時,它首先需要的是“robots.txt”文件。 如果有這樣的文件,那麼它會轉到索引說明以進行進一步的程序。

如果您還沒有添加 robots.txt 文件,那麼搜索引擎可以輕鬆地在任何地方爬入您的網站,並將在您網站上找到的所有內容編入索引。 但指定站點地圖是一個好習慣。 它使搜索引擎很容易找到新的內容,沒有任何延遲。

robots.txt 的用途:

  • 您可以使用此文本避免重複頁面
  • 如果您不希望搜索引擎索引您的內部搜索結果頁面,您可以使用此文本
  • 如果您不希望搜索引擎為您網頁的某些區域或整個網站編制索引,請使用它
  • 您可以避免索引某些圖像或文件
  • 您可以將搜索引擎導航到您的站點地圖
  • 當爬蟲同時加載多個內容時,您可以使用爬網延遲來防止服務器過載。

僅當您需要控制對任何特定頁面的訪問時才使用 robots.txt。 如果沒有類似的東西,你不必使用它

Robots.txt 文件的工作原理:

搜索引擎有兩個主要功能。

  1. 爬取網站以發現內容
  2. 索引該內容以服務於尋找特定信息的搜索者

搜索引擎從一個站點爬到另一個站點。 因此,它爬過數十億個站點。 爬行過程也稱為蜘蛛。

在到達一個網站之後,在從一個站點爬到另一個站點之前,搜索爬蟲會查找 robots.txt 文件。 如果它找到了,那麼爬蟲會先讀取它,然後再繼續訪問該站點。 這個 robots.txt 文件包含網絡爬蟲的指令。 它說是否繼續。 如果爬蟲無法找到任何有關該做什麼的方向或信息,那麼它將繼續進行進一步的活動。

robots.txt 會去哪裡?

Robots.txt 是 WebCrawler 或搜索引擎在訪問網站時首先查看的內容。 它只在主目錄中查找。 如果在那裡找不到,爬蟲程序會繼續處理站點中的所有內容。 所以必須在主目錄或根域中放置一個robot.txt 文件

為了解釋這一點,讓我們以 wordpress.com 為例。 如果用戶代理訪問 www.wordpress.com/robots.txt 並且沒有機器人文件,則假定該站點沒有任何說明。 所以它開始索引每一頁。 如果機器人文件存在於 www.wordpress.com/index/robots.text 或 www.wordpress.com/homepage/robots.txt 用戶代理將找不到它。 它將被視為沒有robot.txt 的站點。

創建 Robots.txt 文件的步驟?

robots.txt 文件包含兩個字段; 一行帶有用戶代理名稱或多行帶有指令。 第二行表示爬蟲必須在網站上執行的操作。 讓我們看看如何創建 robots.txt 文件

  • 第一步是打開一個新的文本文件。 您可以在 PC 上使用記事本和在 Mac 上使用文本編輯器,並將其保存為包含文本的文件
  • 將其上傳到您的根目錄。 它是一個名為“htdocs”或“www”的根級文件夾。 因此,這緊隨您的域名之後。
  • 如果存在子域,則為每個子域創建它

這是 robots.txt 的基本格式

用戶代理:[用戶代理名稱]

Disallow : [不被抓取的 URL 字符串的名稱]

這基本上稱為 robots.txt 文件。 可能有多個用戶行和指令。 它可以是允許、禁止、爬行延遲等

robots.txt 中的技術術語:

有一些與 robots.txt 語言相關的常用詞。 它們被稱為 robots.txt 語法。 robots.txt 文件中常用五個主要詞。 他們是:

用戶代理 :

用戶代理是您正在向其提供指令的網絡爬蟲或搜索引擎。

不允許:

該命令指示爬蟲不要爬取特定的 URL。 每個 URL 只能使用一個禁止行。

允許:

此命令僅用於 Google Bot。 通過發出此命令,即使其父頁面被禁止,Google bot 也可以訪問該子文件夾或頁面。

爬行延遲:

它表示加載和爬取頁面內容之前的等待時間。 它不適用於 Google bot,但您可以為 Google Search Console 設置時間

網站地圖:

它用於調用與 URL 關聯的任何 XML 站點地圖的位置。 它僅受 Google、Yahoo、Bing 和 Ask 支持。

這些是您在 robots.txt 語法中應該知道的最常見的術語。 現在您可以通過查看 robots.txt 文件來預測命令

Robots.txt 文件中要包含哪些內容?

Robot.txt 只是為網絡機器人提供有關訪問或不訪問任何內容的說明。 如果您不想向用戶顯示任何網頁,您可以使用 robots.txt 文件為抓取工具提供指導。 否則,您可以使用密碼保護它。 像這樣,您可以隱藏任何管理頁面或私人頁面的位置。 它可以防止機器人爬到這些私人頁面。

現在讓我們通過一些示例來檢查如何做到這一點

  • 允許一切並提交站點地圖:

這對所有網站都是一個不錯的選擇。 這允許搜索引擎在任何地方爬行並索引所有數據。 它還允許顯示 XML 位置,以便爬蟲可以輕鬆訪問新頁面

用戶代理:*

允許: /

#站點地圖參考

站點地圖:www.wordpress.com/sitemap.xml

  • 允許除一個子目錄之外的所有內容

有時,您的頁面中會有一個您不想在搜索結果中顯示的區域。 它可以是圖像、結帳區域、文件、審核部分等。您可以禁止它

用戶代理: *

允許: /

# 不允許的子目錄

禁止:/checkout/

禁止:/圖像/

不允許:/審計報告/

  • 允許除某些文件之外的所有內容:-

有時您可能想在您的網站上顯示媒體或圖像或顯示文檔。 但您不希望它們出現在搜索結果中。 您可以隱藏動畫文件、gif、pdf 或 PHP 文件,如下所示

用戶代理:*

允許: /

#禁止文件類型

禁止:/*.gif$

禁止:/*.pdf$

禁止:/*.php$

  • 允許除某些網頁之外的所有內容:-

有時您可能想隱藏一些不適合閱讀的頁面,可能是您的條款和條件中的任何內容,或者您​​不想向他人展示的任何敏感主題。 您可以按如下方式隱藏它們

用戶代理: *

允許: /

#禁止網頁

禁止:/terms.html

Disallow:/secret-list-of contacts.php

  • 允許除某些 URL 模式之外的所有內容

有時您可能希望禁止某些 URL 模式。 它可以是測試頁面、任何內部搜索頁面等

用戶代理: *

允許: /

#disallow URL 模式

禁止:/*搜索=

禁止:/*test.php$

在上述這些條件下,您發現了許多符號和字符。 在這裡,我正在解釋它們每個人的實際含義

  • 星號 (*) 表示任意數量的字符或單個字符。
  • 美元符號 ($) 表示 URL 的結尾。 如果你忘了放它,你會不小心阻止大量的 URL

注意: - 注意不要禁止整個域。 有時你可以看到這樣的命令

用戶代理: *

不允許: /

你知道這意味著什麼嗎? 您是說搜索引擎不允許您的整個域。 因此,它不會索引您的任何網頁,並且您不能出現在任何搜索結果中。 所以要小心不要把這個不小心放了。

最終測試:

檢查您的 robots.txt 文件是否正常工作很重要。 即使您做對了,也建議進行適當的檢查

您可以使用 Google 的 robots.txt 工具來查找您的文件是否一切正常。 首先,您需要在Google站長工具中註冊您應用robots.txt文件的站點。 註冊後登錄該工具並選擇您的特定站點。 現在,Google 會向您顯示所有註釋以顯示錯誤。

如何檢查您的網站是否有 robots.txt 文件?

您可以輕鬆地檢查這一點。 讓我們以前面的 word press 為例。 輸入您的網站地址 www.wordpress.com 並添加 /robots.txt。 即 www.wordpress.com/robots.txt。 現在,您可以查看您的站點是否有 roborts.txt 文件。

其他快速 robots.txt 提示:

  • 如果您將 robots.txt 放在網站的頂級目錄中,很容易被注意到
  • 如果您禁止任何子目錄,則該子目錄中的任何文件或網頁都將被禁止
  • Robots.txt 區分大小寫。 您必須將其輸入為 robots.txt。 否則,它不會工作
  • 一些用戶代理可能會忽略您的 robots.txt 文件。 電子郵件抓取工具或惡意軟件機器人等某些爬蟲可能會忽略此文件
  • /robots.txt 是公開的。 所以最好不要隱藏任何私人用戶信息。 如果您將 /robots.txt 添加到任何根域的末尾,您可以看到您想要抓取或不想抓取的頁面,如果它有一個 robots.txt 文件。
  • 搜索引擎需要幾天時間才能識別不允許的 URL 並將其從索引中刪除
  • 根目錄中的每個子域都使用一個單獨的 robots.txt 文件。 例如,blog.wordpress.com 和 wordpress.com 使用單獨的 robots.txt 文件。 即 blog.wordpress.com/robots.txt 和 wordpress.com/robots.txt
  • 最好將位置添加到 robots.txt 文件底部的任何站點地圖

你對這個概念有概念嗎? 很簡單吧? 您可以將此應用到您的網站並提高其性能。 沒有必要在您的網站上顯示所有內容。 您可以向用戶隱藏您的管理頁面或條款和條件等。 Robots.txt 文件將在這方面為您提供幫助。 明智地使用它來指示站點地圖並使您的站點索引更快。

Robot.txt 不僅是關於禁止不需要的內容或文件。 這對於更快的下載也非常重要。 你可以很容易地做到這一點。 沒有任何與技術知識相關的東西來完成這項任務。 經過非常好的分析,任何人都可以做到這一點。 應用後不要忘記使用 Google.robot.txt 工具對其進行測試。 它可以幫助您確定添加的文本中是否有任何錯誤。

在 SEO 的各個方面更新自己是非常重要的。 當您身處一個每天都在發生新變化的市場中時,您必須了解您周圍發生的一切。 嘗試實施最現代的技術,使您的網站取得巨大成功。