如何为您的网站创建一个好的 Robots.txt 文件

已发表: 2018-07-09

Robots.txt——它更像是一个技术话题。 Robots.txt 文件对于大多数人来说可能是一个新名词。实际上，它是决定您网站未来的一个小文本。

这怎么可能？

有可能的。这个小文本可以控制您的网站流量。如果输入错误，则您的页面可能不在搜索结果中。因此，重要的是要知道如何正确使用它。

这是您可以应用于您的网站的最简单、最简单的 SEO 方法之一。它不需要任何技术知识来控制 robots.txt 的力量。如果你能找到源代码，那就很容易了。

此外，将 robots.txt 放在网站上的任何位置都无济于事。为此，您必须首先找到源代码并将其保留在那里。然后只有网络爬虫才能识别您的指令并采取相应的行动。

从这篇文章中，您将得到以下问题的答案：

什么是 robots.txt 文件？
robots.txt 文件的用途
它是如何工作的？
如何创建它？
robots.txt 文件的重要性？
在这个文件中包含什么？

首先，让我解释一下这个术语

什么是 Robots.txt 文件？

Robots.txt 是一个文本文件，位于站点的根目录中。它控制搜索引擎爬虫和蜘蛛访问特定网站。这意味着它告诉搜索引擎想要访问或不访问的网站页面。

如今，每个网站所有者都试图引起注意。您可以使用这个小文本来执行此操作。它有助于在搜索结果中包含或排除特定页面。阅读本文后，您将对此有所了解。

当爬虫访问一个站点时，它首先需要的是“robots.txt”文件。如果有这样的文件，那么它会转到索引说明以进行进一步的程序。

如果您还没有添加 robots.txt 文件，那么搜索引擎可以轻松地在任何地方爬入您的网站，并将在您网站上找到的所有内容编入索引。但指定站点地图是一个好习惯。它使搜索引擎很容易找到新的内容，没有任何延迟。

robots.txt 的用途：

您可以使用此文本避免重复页面
如果您不希望搜索引擎索引您的内部搜索结果页面，您可以使用此文本
如果您不希望搜索引擎为您网页的某些区域或整个网站编制索引，请使用它
您可以避免索引某些图像或文件
您可以将搜索引擎导航到您的站点地图
当爬虫同时加载多个内容时，您可以使用爬网延迟来防止服务器过载。

仅当您需要控制对任何特定页面的访问时才使用 robots.txt。如果没有类似的东西，你不必使用它

Robots.txt 文件的工作原理：

搜索引擎有两个主要功能。

爬取网站以发现内容
索引该内容以服务于寻找特定信息的搜索者

搜索引擎从一个站点爬到另一个站点。因此，它爬过数十亿个站点。爬行过程也称为蜘蛛。

在到达一个网站之后，在从一个站点爬到另一个站点之前，搜索爬虫会查找 robots.txt 文件。如果它找到了，那么爬虫会先读取它，然后再继续访问该站点。这个 robots.txt 文件包含网络爬虫的指令。它说是否继续。如果爬虫无法找到任何有关该做什么的方向或信息，那么它将继续进行进一步的活动。

robots.txt 会去哪里？

Robots.txt 是 WebCrawler 或搜索引擎在访问网站时首先查看的内容。它只在主目录中查找。如果在那里找不到，爬虫程序会继续处理站点中的所有内容。所以必须在主目录或根域中放置一个robot.txt 文件。

为了解释这一点，让我们以 wordpress.com 为例。如果用户代理访问 www.wordpress.com/robots.txt 并且没有机器人文件，则假定该站点没有任何说明。所以它开始索引每一页。如果机器人文件存在于 www.wordpress.com/index/robots.text 或 www.wordpress.com/homepage/robots.txt 用户代理将找不到它。它将被视为没有robot.txt 的站点。

创建 Robots.txt 文件的步骤？

robots.txt 文件包含两个字段；一行带有用户代理名称或多行带有指令。第二行表示爬虫必须在网站上执行的操作。让我们看看如何创建 robots.txt 文件

第一步是打开一个新的文本文件。您可以在 PC 上使用记事本和在 Mac 上使用文本编辑器，并将其保存为包含文本的文件
将其上传到您的根目录。它是一个名为“htdocs”或“www”的根级文件夹。因此，这紧随您的域名之后。
如果存在子域，则为每个子域创建它

这是 robots.txt 的基本格式

用户代理：[用户代理名称]

Disallow : [不被抓取的 URL 字符串的名称]

这基本上称为 robots.txt 文件。可能有多个用户行和指令。它可以是允许、禁止、爬行延迟等

robots.txt 中的技术术语：

有一些与 robots.txt 语言相关的常用词。它们被称为 robots.txt 语法。 robots.txt 文件中常用五个主要词。他们是：

用户代理：

用户代理是您正在向其提供指令的网络爬虫或搜索引擎。

不允许：

该命令指示爬虫不要爬取特定的 URL。每个 URL 只能使用一个禁止行。

允许：

此命令仅用于 Google Bot。通过发出此命令，即使其父页面被禁止，Google bot 也可以访问该子文件夹或页面。

爬行延迟：

它表示加载和爬取页面内容之前的等待时间。它不适用于 Google bot，但您可以为 Google Search Console 设置时间

Robots.txt 文件中要包含哪些内容？

Robot.txt 只是为网络机器人提供有关访问或不访问任何内容的说明。如果您不想向用户显示任何网页，您可以使用 robots.txt 文件为抓取工具提供指导。否则，您可以使用密码保护它。像这样，您可以隐藏任何管理页面或私人页面的位置。它可以防止机器人爬到这些私人页面。

现在让我们通过一些示例来检查如何做到这一点

允许一切并提交站点地图：

这对所有网站都是一个不错的选择。这允许搜索引擎在任何地方爬行并索引所有数据。它还允许显示 XML 位置，以便爬虫可以轻松访问新页面

用户代理：*

允许： /

#站点地图参考

站点地图：www.wordpress.com/sitemap.xml

有时，您的页面中会有一个您不想在搜索结果中显示的区域。它可以是图像、结帐区域、文件、审核部分等。您可以禁止它

用户代理： *

允许： /

# 不允许的子目录

禁止：/checkout/

禁止：/图像/

不允许：/审计报告/

允许除某些文件之外的所有内容：-

有时您可能想在您的网站上显示媒体或图像或显示文档。但您不希望它们出现在搜索结果中。您可以隐藏动画文件、gif、pdf 或 PHP 文件，如下所示

用户代理：*

允许： /

#禁止文件类型

禁止：/*.gif$

禁止：/*.pdf$

禁止：/*.php$

允许除某些网页之外的所有内容：-

有时您可能想隐藏一些不适合阅读的页面，可能是您的条款和条件中的任何内容，或者您不想向他人展示的任何敏感主题。您可以按如下方式隐藏它们

用户代理： *

允许： /

#禁止网页

禁止：/terms.html

Disallow:/secret-list-of contacts.php

允许除某些 URL 模式之外的所有内容

有时您可能希望禁止某些 URL 模式。它可以是测试页面、任何内部搜索页面等

用户代理： *

允许： /

#disallow URL 模式

禁止：/*搜索=

禁止：/*test.php$

在上述这些条件下，您发现了许多符号和字符。在这里，我正在解释它们每个人的实际含义

星号 (*) 表示任意数量的字符或单个字符。
美元符号 ($) 表示 URL 的结尾。如果你忘了放它，你会不小心阻止大量的 URL

注意： - 注意不要禁止整个域。有时你可以看到这样的命令

用户代理： *

不允许： /

你知道这意味着什么吗？您是说搜索引擎不允许您的整个域。因此，它不会索引您的任何网页，并且您不能出现在任何搜索结果中。所以要小心不要把这个不小心放了。

最终测试：

检查您的 robots.txt 文件是否正常工作很重要。即使您做对了，也建议进行适当的检查

您可以使用 Google 的 robots.txt 工具来查找您的文件是否一切正常。首先，您需要在Google站长工具中注册您应用robots.txt文件的站点。注册后登录该工具并选择您的特定站点。现在，Google 会向您显示所有注释以显示错误。

如何检查您的网站是否有 robots.txt 文件？

您可以轻松地检查这一点。让我们以前面的 word press 为例。输入您的网站地址 www.wordpress.com 并添加 /robots.txt。即 www.wordpress.com/robots.txt。现在，您可以查看您的站点是否有 roborts.txt 文件。

其他快速 robots.txt 提示：

如果您将 robots.txt 放在网站的顶级目录中，很容易被注意到
如果您禁止任何子目录，则该子目录中的任何文件或网页都将被禁止
Robots.txt 区分大小写。您必须将其输入为 robots.txt。否则，它不会工作
一些用户代理可能会忽略您的 robots.txt 文件。电子邮件抓取工具或恶意软件机器人等某些爬虫可能会忽略此文件
/robots.txt 是公开的。所以最好不要隐藏任何私人用户信息。如果您将 /robots.txt 添加到任何根域的末尾，您可以看到您想要抓取或不想抓取的页面，如果它有一个 robots.txt 文件。
搜索引擎需要几天时间才能识别不允许的 URL 并将其从索引中删除
根目录中的每个子域都使用一个单独的 robots.txt 文件。例如，blog.wordpress.com 和 wordpress.com 使用单独的 robots.txt 文件。即 blog.wordpress.com/robots.txt 和 wordpress.com/robots.txt
最好将位置添加到 robots.txt 文件底部的任何站点地图

你对这个概念有概念吗？很简单吧？您可以将此应用到您的网站并提高其性能。没有必要在您的网站上显示所有内容。您可以向用户隐藏您的管理页面或条款和条件等。 Robots.txt 文件将在这方面为您提供帮助。明智地使用它来指示站点地图并使您的站点索引更快。

Robot.txt 不仅是关于禁止不需要的内容或文件。这对于更快的下载也非常重要。你可以很容易地做到这一点。没有任何与技术知识相关的东西来完成这项任务。经过非常好的分析，任何人都可以做到这一点。应用后不要忘记使用 Google.robot.txt 工具对其进行测试。它可以帮助您确定添加的文本中是否有任何错误。

在 SEO 的各个方面更新自己是非常重要的。当您身处一个每天都在发生新变化的市场中时，您必须了解您周围发生的一切。尝试实施最现代的技术，使您的网站取得巨大成功。

如何为您的网站创建一个好的 Robots.txt 文件

什么是 Robots.txt 文件？

robots.txt 的用途：

Robots.txt 文件的工作原理：

robots.txt 会去哪里？

创建 Robots.txt 文件的步骤？

robots.txt 中的技术术语：

用户代理 ：

不允许：

允许：

爬行延迟：

网站地图：

Robots.txt 文件中要包含哪些内容？

最终测试：

如何检查您的网站是否有 robots.txt 文件？

其他快速 robots.txt 提示：

用户代理：