如何為您的網站創建一個好的 Robots.txt 文件

已發表: 2018-07-09

Robots.txt——它更像是一個技術話題。 Robots.txt 文件對於大多數人來說可能是一個新名詞。實際上，它是決定您網站未來的一個小文本。

這怎麼可能？

有可能的。這個小文本可以控制您的網站流量。如果輸入錯誤，則您的頁面可能不在搜索結果中。因此，重要的是要知道如何正確使用它。

這是您可以應用於您的網站的最簡單、最簡單的 SEO 方法之一。它不需要任何技術知識來控制 robots.txt 的力量。如果你能找到源代碼，那就很容易了。

此外，將 robots.txt 放在網站上的任何位置都無濟於事。為此，您必須首先找到源代碼並將其保留在那裡。然後只有網絡爬蟲才能識別您的指令並採取相應的行動。

從這篇文章中，您將得到以下問題的答案：

什麼是 robots.txt 文件？
robots.txt 文件的用途
它是如何工作的？
如何創建它？
robots.txt 文件的重要性？
在這個文件中包含什麼？

首先，讓我解釋一下這個術語

什麼是 Robots.txt 文件？

Robots.txt 是一個文本文件，位於站點的根目錄中。它控制搜索引擎爬蟲和蜘蛛訪問特定網站。這意味著它告訴搜索引擎想要訪問或不訪問的網站頁面。

如今，每個網站所有者都試圖引起注意。您可以使用這個小文本來執行此操作。它有助於在搜索結果中包含或排除特定頁面。閱讀本文後，您將對此有所了解。

當爬蟲訪問一個站點時，它首先需要的是“robots.txt”文件。如果有這樣的文件，那麼它會轉到索引說明以進行進一步的程序。

如果您還沒有添加 robots.txt 文件，那麼搜索引擎可以輕鬆地在任何地方爬入您的網站，並將在您網站上找到的所有內容編入索引。但指定站點地圖是一個好習慣。它使搜索引擎很容易找到新的內容，沒有任何延遲。

robots.txt 的用途：

您可以使用此文本避免重複頁面
如果您不希望搜索引擎索引您的內部搜索結果頁面，您可以使用此文本
如果您不希望搜索引擎為您網頁的某些區域或整個網站編制索引，請使用它
您可以避免索引某些圖像或文件
您可以將搜索引擎導航到您的站點地圖
當爬蟲同時加載多個內容時，您可以使用爬網延遲來防止服務器過載。

僅當您需要控制對任何特定頁面的訪問時才使用 robots.txt。如果沒有類似的東西，你不必使用它

Robots.txt 文件的工作原理：

搜索引擎有兩個主要功能。

爬取網站以發現內容
索引該內容以服務於尋找特定信息的搜索者

搜索引擎從一個站點爬到另一個站點。因此，它爬過數十億個站點。爬行過程也稱為蜘蛛。

在到達一個網站之後，在從一個站點爬到另一個站點之前，搜索爬蟲會查找 robots.txt 文件。如果它找到了，那麼爬蟲會先讀取它，然後再繼續訪問該站點。這個 robots.txt 文件包含網絡爬蟲的指令。它說是否繼續。如果爬蟲無法找到任何有關該做什麼的方向或信息，那麼它將繼續進行進一步的活動。

robots.txt 會去哪裡？

Robots.txt 是 WebCrawler 或搜索引擎在訪問網站時首先查看的內容。它只在主目錄中查找。如果在那裡找不到，爬蟲程序會繼續處理站點中的所有內容。所以必須在主目錄或根域中放置一個robot.txt 文件。

為了解釋這一點，讓我們以 wordpress.com 為例。如果用戶代理訪問 www.wordpress.com/robots.txt 並且沒有機器人文件，則假定該站點沒有任何說明。所以它開始索引每一頁。如果機器人文件存在於 www.wordpress.com/index/robots.text 或 www.wordpress.com/homepage/robots.txt 用戶代理將找不到它。它將被視為沒有robot.txt 的站點。

創建 Robots.txt 文件的步驟？

robots.txt 文件包含兩個字段；一行帶有用戶代理名稱或多行帶有指令。第二行表示爬蟲必須在網站上執行的操作。讓我們看看如何創建 robots.txt 文件

第一步是打開一個新的文本文件。您可以在 PC 上使用記事本和在 Mac 上使用文本編輯器，並將其保存為包含文本的文件
將其上傳到您的根目錄。它是一個名為“htdocs”或“www”的根級文件夾。因此，這緊隨您的域名之後。
如果存在子域，則為每個子域創建它

這是 robots.txt 的基本格式

用戶代理：[用戶代理名稱]

Disallow : [不被抓取的 URL 字符串的名稱]

這基本上稱為 robots.txt 文件。可能有多個用戶行和指令。它可以是允許、禁止、爬行延遲等

robots.txt 中的技術術語：

有一些與 robots.txt 語言相關的常用詞。它們被稱為 robots.txt 語法。 robots.txt 文件中常用五個主要詞。他們是：

用戶代理：

用戶代理是您正在向其提供指令的網絡爬蟲或搜索引擎。

不允許：

該命令指示爬蟲不要爬取特定的 URL。每個 URL 只能使用一個禁止行。

允許：

此命令僅用於 Google Bot。通過發出此命令，即使其父頁面被禁止，Google bot 也可以訪問該子文件夾或頁面。

爬行延遲：

它表示加載和爬取頁面內容之前的等待時間。它不適用於 Google bot，但您可以為 Google Search Console 設置時間

Robots.txt 文件中要包含哪些內容？

Robot.txt 只是為網絡機器人提供有關訪問或不訪問任何內容的說明。如果您不想向用戶顯示任何網頁，您可以使用 robots.txt 文件為抓取工具提供指導。否則，您可以使用密碼保護它。像這樣，您可以隱藏任何管理頁面或私人頁面的位置。它可以防止機器人爬到這些私人頁面。

現在讓我們通過一些示例來檢查如何做到這一點

允許一切並提交站點地圖：

這對所有網站都是一個不錯的選擇。這允許搜索引擎在任何地方爬行並索引所有數據。它還允許顯示 XML 位置，以便爬蟲可以輕鬆訪問新頁面

用戶代理：*

允許： /

#站點地圖參考

站點地圖：www.wordpress.com/sitemap.xml

有時，您的頁面中會有一個您不想在搜索結果中顯示的區域。它可以是圖像、結帳區域、文件、審核部分等。您可以禁止它

用戶代理： *

允許： /

# 不允許的子目錄

禁止：/checkout/

禁止：/圖像/

不允許：/審計報告/

允許除某些文件之外的所有內容：-

有時您可能想在您的網站上顯示媒體或圖像或顯示文檔。但您不希望它們出現在搜索結果中。您可以隱藏動畫文件、gif、pdf 或 PHP 文件，如下所示

用戶代理：*

允許： /

#禁止文件類型

禁止：/*.gif$

禁止：/*.pdf$

禁止：/*.php$

允許除某些網頁之外的所有內容：-

有時您可能想隱藏一些不適合閱讀的頁面，可能是您的條款和條件中的任何內容，或者您不想向他人展示的任何敏感主題。您可以按如下方式隱藏它們

用戶代理： *

允許： /

#禁止網頁

禁止：/terms.html

Disallow:/secret-list-of contacts.php

允許除某些 URL 模式之外的所有內容

有時您可能希望禁止某些 URL 模式。它可以是測試頁面、任何內部搜索頁面等

用戶代理： *

允許： /

#disallow URL 模式

禁止：/*搜索=

禁止：/*test.php$

在上述這些條件下，您發現了許多符號和字符。在這裡，我正在解釋它們每個人的實際含義

星號 (*) 表示任意數量的字符或單個字符。
美元符號 ($) 表示 URL 的結尾。如果你忘了放它，你會不小心阻止大量的 URL

注意： - 注意不要禁止整個域。有時你可以看到這樣的命令

用戶代理： *

不允許： /

你知道這意味著什麼嗎？您是說搜索引擎不允許您的整個域。因此，它不會索引您的任何網頁，並且您不能出現在任何搜索結果中。所以要小心不要把這個不小心放了。

最終測試：

檢查您的 robots.txt 文件是否正常工作很重要。即使您做對了，也建議進行適當的檢查

您可以使用 Google 的 robots.txt 工具來查找您的文件是否一切正常。首先，您需要在Google站長工具中註冊您應用robots.txt文件的站點。註冊後登錄該工具並選擇您的特定站點。現在，Google 會向您顯示所有註釋以顯示錯誤。

如何檢查您的網站是否有 robots.txt 文件？

您可以輕鬆地檢查這一點。讓我們以前面的 word press 為例。輸入您的網站地址 www.wordpress.com 並添加 /robots.txt。即 www.wordpress.com/robots.txt。現在，您可以查看您的站點是否有 roborts.txt 文件。

其他快速 robots.txt 提示：

如果您將 robots.txt 放在網站的頂級目錄中，很容易被注意到
如果您禁止任何子目錄，則該子目錄中的任何文件或網頁都將被禁止
Robots.txt 區分大小寫。您必須將其輸入為 robots.txt。否則，它不會工作
一些用戶代理可能會忽略您的 robots.txt 文件。電子郵件抓取工具或惡意軟件機器人等某些爬蟲可能會忽略此文件
/robots.txt 是公開的。所以最好不要隱藏任何私人用戶信息。如果您將 /robots.txt 添加到任何根域的末尾，您可以看到您想要抓取或不想抓取的頁面，如果它有一個 robots.txt 文件。
搜索引擎需要幾天時間才能識別不允許的 URL 並將其從索引中刪除
根目錄中的每個子域都使用一個單獨的 robots.txt 文件。例如，blog.wordpress.com 和 wordpress.com 使用單獨的 robots.txt 文件。即 blog.wordpress.com/robots.txt 和 wordpress.com/robots.txt
最好將位置添加到 robots.txt 文件底部的任何站點地圖

你對這個概念有概念嗎？很簡單吧？您可以將此應用到您的網站並提高其性能。沒有必要在您的網站上顯示所有內容。您可以向用戶隱藏您的管理頁面或條款和條件等。 Robots.txt 文件將在這方面為您提供幫助。明智地使用它來指示站點地圖並使您的站點索引更快。

Robot.txt 不僅是關於禁止不需要的內容或文件。這對於更快的下載也非常重要。你可以很容易地做到這一點。沒有任何與技術知識相關的東西來完成這項任務。經過非常好的分析，任何人都可以做到這一點。應用後不要忘記使用 Google.robot.txt 工具對其進行測試。它可以幫助您確定添加的文本中是否有任何錯誤。

在 SEO 的各個方面更新自己是非常重要的。當您身處一個每天都在發生新變化的市場中時，您必須了解您周圍發生的一切。嘗試實施最現代的技術，使您的網站取得巨大成功。

如何為您的網站創建一個好的 Robots.txt 文件

什麼是 Robots.txt 文件？

robots.txt 的用途：

Robots.txt 文件的工作原理：

robots.txt 會去哪裡？

創建 Robots.txt 文件的步驟？

robots.txt 中的技術術語：

用戶代理 ：

不允許：

允許：

爬行延遲：

網站地圖：

Robots.txt 文件中要包含哪些內容？

最終測試：

如何檢查您的網站是否有 robots.txt 文件？

其他快速 robots.txt 提示：

用戶代理：