如何為您的網站創建一個好的 Robots.txt 文件
已發表: 2018-07-09Robots.txt——它更像是一個技術話題。 Robots.txt 文件對於大多數人來說可能是一個新名詞。 實際上,它是決定您網站未來的一個小文本。
這怎麼可能?
有可能的。 這個小文本可以控制您的網站流量。 如果輸入錯誤,則您的頁面可能不在搜索結果中。 因此,重要的是要知道如何正確使用它。
這是您可以應用於您的網站的最簡單、最簡單的 SEO 方法之一。 它不需要任何技術知識來控制 robots.txt 的力量。 如果你能找到源代碼,那就很容易了。
![]()
此外,將 robots.txt 放在網站上的任何位置都無濟於事。 為此,您必須首先找到源代碼並將其保留在那裡。 然後只有網絡爬蟲才能識別您的指令並採取相應的行動。
從這篇文章中,您將得到以下問題的答案:
- 什麼是 robots.txt 文件?
- robots.txt 文件的用途
- 它是如何工作的?
- 如何創建它?
- robots.txt 文件的重要性?
- 在這個文件中包含什麼?
首先,讓我解釋一下這個術語
什麼是 Robots.txt 文件?
Robots.txt 是一個文本文件,位於站點的根目錄中。 它控制搜索引擎爬蟲和蜘蛛訪問特定網站。 這意味著它告訴搜索引擎想要訪問或不訪問的網站頁面。
如今,每個網站所有者都試圖引起注意。 您可以使用這個小文本來執行此操作。 它有助於在搜索結果中包含或排除特定頁面。 閱讀本文後,您將對此有所了解。
當爬蟲訪問一個站點時,它首先需要的是“robots.txt”文件。 如果有這樣的文件,那麼它會轉到索引說明以進行進一步的程序。
如果您還沒有添加 robots.txt 文件,那麼搜索引擎可以輕鬆地在任何地方爬入您的網站,並將在您網站上找到的所有內容編入索引。 但指定站點地圖是一個好習慣。 它使搜索引擎很容易找到新的內容,沒有任何延遲。
robots.txt 的用途:
- 您可以使用此文本避免重複頁面
- 如果您不希望搜索引擎索引您的內部搜索結果頁面,您可以使用此文本
- 如果您不希望搜索引擎為您網頁的某些區域或整個網站編制索引,請使用它
- 您可以避免索引某些圖像或文件
- 您可以將搜索引擎導航到您的站點地圖
- 當爬蟲同時加載多個內容時,您可以使用爬網延遲來防止服務器過載。
僅當您需要控制對任何特定頁面的訪問時才使用 robots.txt。 如果沒有類似的東西,你不必使用它
Robots.txt 文件的工作原理:
搜索引擎有兩個主要功能。
- 爬取網站以發現內容
- 索引該內容以服務於尋找特定信息的搜索者
搜索引擎從一個站點爬到另一個站點。 因此,它爬過數十億個站點。 爬行過程也稱為蜘蛛。
在到達一個網站之後,在從一個站點爬到另一個站點之前,搜索爬蟲會查找 robots.txt 文件。 如果它找到了,那麼爬蟲會先讀取它,然後再繼續訪問該站點。 這個 robots.txt 文件包含網絡爬蟲的指令。 它說是否繼續。 如果爬蟲無法找到任何有關該做什麼的方向或信息,那麼它將繼續進行進一步的活動。
robots.txt 會去哪裡?
Robots.txt 是 WebCrawler 或搜索引擎在訪問網站時首先查看的內容。 它只在主目錄中查找。 如果在那裡找不到,爬蟲程序會繼續處理站點中的所有內容。 所以必須在主目錄或根域中放置一個robot.txt 文件。
為了解釋這一點,讓我們以 wordpress.com 為例。 如果用戶代理訪問 www.wordpress.com/robots.txt 並且沒有機器人文件,則假定該站點沒有任何說明。 所以它開始索引每一頁。 如果機器人文件存在於 www.wordpress.com/index/robots.text 或 www.wordpress.com/homepage/robots.txt 用戶代理將找不到它。 它將被視為沒有robot.txt 的站點。
創建 Robots.txt 文件的步驟?
robots.txt 文件包含兩個字段; 一行帶有用戶代理名稱或多行帶有指令。 第二行表示爬蟲必須在網站上執行的操作。 讓我們看看如何創建 robots.txt 文件
- 第一步是打開一個新的文本文件。 您可以在 PC 上使用記事本和在 Mac 上使用文本編輯器,並將其保存為包含文本的文件
- 將其上傳到您的根目錄。 它是一個名為“htdocs”或“www”的根級文件夾。 因此,這緊隨您的域名之後。
- 如果存在子域,則為每個子域創建它
這是 robots.txt 的基本格式
用戶代理:[用戶代理名稱]
Disallow : [不被抓取的 URL 字符串的名稱]
這基本上稱為 robots.txt 文件。 可能有多個用戶行和指令。 它可以是允許、禁止、爬行延遲等
robots.txt 中的技術術語:
有一些與 robots.txt 語言相關的常用詞。 它們被稱為 robots.txt 語法。 robots.txt 文件中常用五個主要詞。 他們是:
用戶代理 :
用戶代理是您正在向其提供指令的網絡爬蟲或搜索引擎。
不允許:
該命令指示爬蟲不要爬取特定的 URL。 每個 URL 只能使用一個禁止行。
允許:
此命令僅用於 Google Bot。 通過發出此命令,即使其父頁面被禁止,Google bot 也可以訪問該子文件夾或頁面。
爬行延遲:
它表示加載和爬取頁面內容之前的等待時間。 它不適用於 Google bot,但您可以為 Google Search Console 設置時間
網站地圖:
它用於調用與 URL 關聯的任何 XML 站點地圖的位置。 它僅受 Google、Yahoo、Bing 和 Ask 支持。

這些是您在 robots.txt 語法中應該知道的最常見的術語。 現在您可以通過查看 robots.txt 文件來預測命令
Robots.txt 文件中要包含哪些內容?
Robot.txt 只是為網絡機器人提供有關訪問或不訪問任何內容的說明。 如果您不想向用戶顯示任何網頁,您可以使用 robots.txt 文件為抓取工具提供指導。 否則,您可以使用密碼保護它。 像這樣,您可以隱藏任何管理頁面或私人頁面的位置。 它可以防止機器人爬到這些私人頁面。
現在讓我們通過一些示例來檢查如何做到這一點
- 允許一切並提交站點地圖:
這對所有網站都是一個不錯的選擇。 這允許搜索引擎在任何地方爬行並索引所有數據。 它還允許顯示 XML 位置,以便爬蟲可以輕鬆訪問新頁面
用戶代理:*
允許: /
#站點地圖參考
站點地圖:www.wordpress.com/sitemap.xml
- 允許除一個子目錄之外的所有內容
有時,您的頁面中會有一個您不想在搜索結果中顯示的區域。 它可以是圖像、結帳區域、文件、審核部分等。您可以禁止它
用戶代理: *
允許: /
# 不允許的子目錄
禁止:/checkout/
禁止:/圖像/
不允許:/審計報告/
- 允許除某些文件之外的所有內容:-
有時您可能想在您的網站上顯示媒體或圖像或顯示文檔。 但您不希望它們出現在搜索結果中。 您可以隱藏動畫文件、gif、pdf 或 PHP 文件,如下所示
用戶代理:*
允許: /
#禁止文件類型
禁止:/*.gif$
禁止:/*.pdf$
禁止:/*.php$
- 允許除某些網頁之外的所有內容:-
有時您可能想隱藏一些不適合閱讀的頁面,可能是您的條款和條件中的任何內容,或者您不想向他人展示的任何敏感主題。 您可以按如下方式隱藏它們
用戶代理: *
允許: /
#禁止網頁
禁止:/terms.html
Disallow:/secret-list-of contacts.php
- 允許除某些 URL 模式之外的所有內容
有時您可能希望禁止某些 URL 模式。 它可以是測試頁面、任何內部搜索頁面等
用戶代理: *
允許: /
#disallow URL 模式
禁止:/*搜索=
禁止:/*test.php$
在上述這些條件下,您發現了許多符號和字符。 在這裡,我正在解釋它們每個人的實際含義
- 星號 (*) 表示任意數量的字符或單個字符。
- 美元符號 ($) 表示 URL 的結尾。 如果你忘了放它,你會不小心阻止大量的 URL
注意: - 注意不要禁止整個域。 有時你可以看到這樣的命令
用戶代理: *
不允許: /
你知道這意味著什麼嗎? 您是說搜索引擎不允許您的整個域。 因此,它不會索引您的任何網頁,並且您不能出現在任何搜索結果中。 所以要小心不要把這個不小心放了。
最終測試:
檢查您的 robots.txt 文件是否正常工作很重要。 即使您做對了,也建議進行適當的檢查
您可以使用 Google 的 robots.txt 工具來查找您的文件是否一切正常。 首先,您需要在Google站長工具中註冊您應用robots.txt文件的站點。 註冊後登錄該工具並選擇您的特定站點。 現在,Google 會向您顯示所有註釋以顯示錯誤。
如何檢查您的網站是否有 robots.txt 文件?
您可以輕鬆地檢查這一點。 讓我們以前面的 word press 為例。 輸入您的網站地址 www.wordpress.com 並添加 /robots.txt。 即 www.wordpress.com/robots.txt。 現在,您可以查看您的站點是否有 roborts.txt 文件。
其他快速 robots.txt 提示:
- 如果您將 robots.txt 放在網站的頂級目錄中,很容易被注意到
- 如果您禁止任何子目錄,則該子目錄中的任何文件或網頁都將被禁止
- Robots.txt 區分大小寫。 您必須將其輸入為 robots.txt。 否則,它不會工作
- 一些用戶代理可能會忽略您的 robots.txt 文件。 電子郵件抓取工具或惡意軟件機器人等某些爬蟲可能會忽略此文件
- /robots.txt 是公開的。 所以最好不要隱藏任何私人用戶信息。 如果您將 /robots.txt 添加到任何根域的末尾,您可以看到您想要抓取或不想抓取的頁面,如果它有一個 robots.txt 文件。
- 搜索引擎需要幾天時間才能識別不允許的 URL 並將其從索引中刪除
- 根目錄中的每個子域都使用一個單獨的 robots.txt 文件。 例如,blog.wordpress.com 和 wordpress.com 使用單獨的 robots.txt 文件。 即 blog.wordpress.com/robots.txt 和 wordpress.com/robots.txt
- 最好將位置添加到 robots.txt 文件底部的任何站點地圖
你對這個概念有概念嗎? 很簡單吧? 您可以將此應用到您的網站並提高其性能。 沒有必要在您的網站上顯示所有內容。 您可以向用戶隱藏您的管理頁面或條款和條件等。 Robots.txt 文件將在這方面為您提供幫助。 明智地使用它來指示站點地圖並使您的站點索引更快。
Robot.txt 不僅是關於禁止不需要的內容或文件。 這對於更快的下載也非常重要。 你可以很容易地做到這一點。 沒有任何與技術知識相關的東西來完成這項任務。 經過非常好的分析,任何人都可以做到這一點。 應用後不要忘記使用 Google.robot.txt 工具對其進行測試。 它可以幫助您確定添加的文本中是否有任何錯誤。
在 SEO 的各個方面更新自己是非常重要的。 當您身處一個每天都在發生新變化的市場中時,您必須了解您周圍發生的一切。 嘗試實施最現代的技術,使您的網站取得巨大成功。
