如何为您的网站创建一个好的 Robots.txt 文件
已发表: 2018-07-09Robots.txt——它更像是一个技术话题。 Robots.txt 文件对于大多数人来说可能是一个新名词。 实际上,它是决定您网站未来的一个小文本。
这怎么可能?
有可能的。 这个小文本可以控制您的网站流量。 如果输入错误,则您的页面可能不在搜索结果中。 因此,重要的是要知道如何正确使用它。
这是您可以应用于您的网站的最简单、最简单的 SEO 方法之一。 它不需要任何技术知识来控制 robots.txt 的力量。 如果你能找到源代码,那就很容易了。
![]()
此外,将 robots.txt 放在网站上的任何位置都无济于事。 为此,您必须首先找到源代码并将其保留在那里。 然后只有网络爬虫才能识别您的指令并采取相应的行动。
从这篇文章中,您将得到以下问题的答案:
- 什么是 robots.txt 文件?
- robots.txt 文件的用途
- 它是如何工作的?
- 如何创建它?
- robots.txt 文件的重要性?
- 在这个文件中包含什么?
首先,让我解释一下这个术语
什么是 Robots.txt 文件?
Robots.txt 是一个文本文件,位于站点的根目录中。 它控制搜索引擎爬虫和蜘蛛访问特定网站。 这意味着它告诉搜索引擎想要访问或不访问的网站页面。
如今,每个网站所有者都试图引起注意。 您可以使用这个小文本来执行此操作。 它有助于在搜索结果中包含或排除特定页面。 阅读本文后,您将对此有所了解。
当爬虫访问一个站点时,它首先需要的是“robots.txt”文件。 如果有这样的文件,那么它会转到索引说明以进行进一步的程序。
如果您还没有添加 robots.txt 文件,那么搜索引擎可以轻松地在任何地方爬入您的网站,并将在您网站上找到的所有内容编入索引。 但指定站点地图是一个好习惯。 它使搜索引擎很容易找到新的内容,没有任何延迟。
robots.txt 的用途:
- 您可以使用此文本避免重复页面
- 如果您不希望搜索引擎索引您的内部搜索结果页面,您可以使用此文本
- 如果您不希望搜索引擎为您网页的某些区域或整个网站编制索引,请使用它
- 您可以避免索引某些图像或文件
- 您可以将搜索引擎导航到您的站点地图
- 当爬虫同时加载多个内容时,您可以使用爬网延迟来防止服务器过载。
仅当您需要控制对任何特定页面的访问时才使用 robots.txt。 如果没有类似的东西,你不必使用它
Robots.txt 文件的工作原理:
搜索引擎有两个主要功能。
- 爬取网站以发现内容
- 索引该内容以服务于寻找特定信息的搜索者
搜索引擎从一个站点爬到另一个站点。 因此,它爬过数十亿个站点。 爬行过程也称为蜘蛛。
在到达一个网站之后,在从一个站点爬到另一个站点之前,搜索爬虫会查找 robots.txt 文件。 如果它找到了,那么爬虫会先读取它,然后再继续访问该站点。 这个 robots.txt 文件包含网络爬虫的指令。 它说是否继续。 如果爬虫无法找到任何有关该做什么的方向或信息,那么它将继续进行进一步的活动。
robots.txt 会去哪里?
Robots.txt 是 WebCrawler 或搜索引擎在访问网站时首先查看的内容。 它只在主目录中查找。 如果在那里找不到,爬虫程序会继续处理站点中的所有内容。 所以必须在主目录或根域中放置一个robot.txt 文件。
为了解释这一点,让我们以 wordpress.com 为例。 如果用户代理访问 www.wordpress.com/robots.txt 并且没有机器人文件,则假定该站点没有任何说明。 所以它开始索引每一页。 如果机器人文件存在于 www.wordpress.com/index/robots.text 或 www.wordpress.com/homepage/robots.txt 用户代理将找不到它。 它将被视为没有robot.txt 的站点。
创建 Robots.txt 文件的步骤?
robots.txt 文件包含两个字段; 一行带有用户代理名称或多行带有指令。 第二行表示爬虫必须在网站上执行的操作。 让我们看看如何创建 robots.txt 文件
- 第一步是打开一个新的文本文件。 您可以在 PC 上使用记事本和在 Mac 上使用文本编辑器,并将其保存为包含文本的文件
- 将其上传到您的根目录。 它是一个名为“htdocs”或“www”的根级文件夹。 因此,这紧随您的域名之后。
- 如果存在子域,则为每个子域创建它
这是 robots.txt 的基本格式
用户代理:[用户代理名称]
Disallow : [不被抓取的 URL 字符串的名称]
这基本上称为 robots.txt 文件。 可能有多个用户行和指令。 它可以是允许、禁止、爬行延迟等
robots.txt 中的技术术语:
有一些与 robots.txt 语言相关的常用词。 它们被称为 robots.txt 语法。 robots.txt 文件中常用五个主要词。 他们是:
用户代理 :
用户代理是您正在向其提供指令的网络爬虫或搜索引擎。
不允许:
该命令指示爬虫不要爬取特定的 URL。 每个 URL 只能使用一个禁止行。
允许:
此命令仅用于 Google Bot。 通过发出此命令,即使其父页面被禁止,Google bot 也可以访问该子文件夹或页面。
爬行延迟:
它表示加载和爬取页面内容之前的等待时间。 它不适用于 Google bot,但您可以为 Google Search Console 设置时间
网站地图:
它用于调用与 URL 关联的任何 XML 站点地图的位置。 它仅受 Google、Yahoo、Bing 和 Ask 支持。

这些是您在 robots.txt 语法中应该知道的最常见的术语。 现在您可以通过查看 robots.txt 文件来预测命令
Robots.txt 文件中要包含哪些内容?
Robot.txt 只是为网络机器人提供有关访问或不访问任何内容的说明。 如果您不想向用户显示任何网页,您可以使用 robots.txt 文件为抓取工具提供指导。 否则,您可以使用密码保护它。 像这样,您可以隐藏任何管理页面或私人页面的位置。 它可以防止机器人爬到这些私人页面。
现在让我们通过一些示例来检查如何做到这一点
- 允许一切并提交站点地图:
这对所有网站都是一个不错的选择。 这允许搜索引擎在任何地方爬行并索引所有数据。 它还允许显示 XML 位置,以便爬虫可以轻松访问新页面
用户代理:*
允许: /
#站点地图参考
站点地图:www.wordpress.com/sitemap.xml
- 允许除一个子目录之外的所有内容
有时,您的页面中会有一个您不想在搜索结果中显示的区域。 它可以是图像、结帐区域、文件、审核部分等。您可以禁止它
用户代理: *
允许: /
# 不允许的子目录
禁止:/checkout/
禁止:/图像/
不允许:/审计报告/
- 允许除某些文件之外的所有内容:-
有时您可能想在您的网站上显示媒体或图像或显示文档。 但您不希望它们出现在搜索结果中。 您可以隐藏动画文件、gif、pdf 或 PHP 文件,如下所示
用户代理:*
允许: /
#禁止文件类型
禁止:/*.gif$
禁止:/*.pdf$
禁止:/*.php$
- 允许除某些网页之外的所有内容:-
有时您可能想隐藏一些不适合阅读的页面,可能是您的条款和条件中的任何内容,或者您不想向他人展示的任何敏感主题。 您可以按如下方式隐藏它们
用户代理: *
允许: /
#禁止网页
禁止:/terms.html
Disallow:/secret-list-of contacts.php
- 允许除某些 URL 模式之外的所有内容
有时您可能希望禁止某些 URL 模式。 它可以是测试页面、任何内部搜索页面等
用户代理: *
允许: /
#disallow URL 模式
禁止:/*搜索=
禁止:/*test.php$
在上述这些条件下,您发现了许多符号和字符。 在这里,我正在解释它们每个人的实际含义
- 星号 (*) 表示任意数量的字符或单个字符。
- 美元符号 ($) 表示 URL 的结尾。 如果你忘了放它,你会不小心阻止大量的 URL
注意: - 注意不要禁止整个域。 有时你可以看到这样的命令
用户代理: *
不允许: /
你知道这意味着什么吗? 您是说搜索引擎不允许您的整个域。 因此,它不会索引您的任何网页,并且您不能出现在任何搜索结果中。 所以要小心不要把这个不小心放了。
最终测试:
检查您的 robots.txt 文件是否正常工作很重要。 即使您做对了,也建议进行适当的检查
您可以使用 Google 的 robots.txt 工具来查找您的文件是否一切正常。 首先,您需要在Google站长工具中注册您应用robots.txt文件的站点。 注册后登录该工具并选择您的特定站点。 现在,Google 会向您显示所有注释以显示错误。
如何检查您的网站是否有 robots.txt 文件?
您可以轻松地检查这一点。 让我们以前面的 word press 为例。 输入您的网站地址 www.wordpress.com 并添加 /robots.txt。 即 www.wordpress.com/robots.txt。 现在,您可以查看您的站点是否有 roborts.txt 文件。
其他快速 robots.txt 提示:
- 如果您将 robots.txt 放在网站的顶级目录中,很容易被注意到
- 如果您禁止任何子目录,则该子目录中的任何文件或网页都将被禁止
- Robots.txt 区分大小写。 您必须将其输入为 robots.txt。 否则,它不会工作
- 一些用户代理可能会忽略您的 robots.txt 文件。 电子邮件抓取工具或恶意软件机器人等某些爬虫可能会忽略此文件
- /robots.txt 是公开的。 所以最好不要隐藏任何私人用户信息。 如果您将 /robots.txt 添加到任何根域的末尾,您可以看到您想要抓取或不想抓取的页面,如果它有一个 robots.txt 文件。
- 搜索引擎需要几天时间才能识别不允许的 URL 并将其从索引中删除
- 根目录中的每个子域都使用一个单独的 robots.txt 文件。 例如,blog.wordpress.com 和 wordpress.com 使用单独的 robots.txt 文件。 即 blog.wordpress.com/robots.txt 和 wordpress.com/robots.txt
- 最好将位置添加到 robots.txt 文件底部的任何站点地图
你对这个概念有概念吗? 很简单吧? 您可以将此应用到您的网站并提高其性能。 没有必要在您的网站上显示所有内容。 您可以向用户隐藏您的管理页面或条款和条件等。 Robots.txt 文件将在这方面为您提供帮助。 明智地使用它来指示站点地图并使您的站点索引更快。
Robot.txt 不仅是关于禁止不需要的内容或文件。 这对于更快的下载也非常重要。 你可以很容易地做到这一点。 没有任何与技术知识相关的东西来完成这项任务。 经过非常好的分析,任何人都可以做到这一点。 应用后不要忘记使用 Google.robot.txt 工具对其进行测试。 它可以帮助您确定添加的文本中是否有任何错误。
在 SEO 的各个方面更新自己是非常重要的。 当您身处一个每天都在发生新变化的市场中时,您必须了解您周围发生的一切。 尝试实施最现代的技术,使您的网站取得巨大成功。
