如何为您的网站创建一个好的 Robots.txt 文件

已发表: 2018-07-09

Robots.txt——它更像是一个技术话题。 Robots.txt 文件对于大多数人来说可能是一个新名词。 实际上,它是决定您网站未来的一个小文本。

这怎么可能?

有可能的。 这个小文本可以控制您的网站流量。 如果输入错误,则您的页面可能不在搜索结果中。 因此,重要的是要知道如何正确使用它。

这是您可以应用于您的网站的最简单、最简单的 SEO 方法之一。 它不需要任何技术知识来控制 robots.txt 的力量。 如果你能找到源代码,那就很容易了。

Robots.txt 文件

此外,将 robots.txt 放在网站上的任何位置都无济于事。 为此,您必须首先找到源代码并将其保留在那里。 然后只有网络爬虫才能识别您的指令并采取相应的行动。

从这篇文章中,您将得到以下问题的答案:

  • 什么是 robots.txt 文件?
  • robots.txt 文件的用途
  • 它是如何工作的?
  • 如何创建它?
  • robots.txt 文件的重要性?
  • 在这个文件中包含什么?

首先,让我解释一下这个术语

什么是 Robots.txt 文件?

Robots.txt 是一个文本文件,位于站点的根目录中。 它控制搜索引擎爬虫和蜘蛛访问特定网站。 这意味着它告诉搜索引擎想要访问或不访问的网站页面。

如今,每个网站所有者都试图引起注意。 您可以使用这个小文本来执行此操作。 它有助于在搜索结果中包含或排除特定页面。 阅读本文后,您将对此有所了解。

当爬虫访问一个站点时,它首先需要的是“robots.txt”文件。 如果有这样的文件,那么它会转到索引说明以进行进一步的程序。

如果您还没有添加 robots.txt 文件,那么搜索引擎可以轻松地在任何地方爬入您的网站,并将在您网站上找到的所有内容编入索引。 但指定站点地图是一个好习惯。 它使搜索引擎很容易找到新的内容,没有任何延迟。

robots.txt 的用途:

  • 您可以使用此文本避免重复页面
  • 如果您不希望搜索引擎索引您的内部搜索结果页面,您可以使用此文本
  • 如果您不希望搜索引擎为您网页的某些区域或整个网站编制索引,请使用它
  • 您可以避免索引某些图像或文件
  • 您可以将搜索引擎导航到您的站点地图
  • 当爬虫同时加载多个内容时,您可以使用爬网延迟来防止服务器过载。

仅当您需要控制对任何特定页面的访问时才使用 robots.txt。 如果没有类似的东西,你不必使用它

Robots.txt 文件的工作原理:

搜索引擎有两个主要功能。

  1. 爬取网站以发现内容
  2. 索引该内容以服务于寻找特定信息的搜索者

搜索引擎从一个站点爬到另一个站点。 因此,它爬过数十亿个站点。 爬行过程也称为蜘蛛。

在到达一个网站之后,在从一个站点爬到另一个站点之前,搜索爬虫会查找 robots.txt 文件。 如果它找到了,那么爬虫会先读取它,然后再继续访问该站点。 这个 robots.txt 文件包含网络爬虫的指令。 它说是否继续。 如果爬虫无法找到任何有关该做什么的方向或信息,那么它将继续进行进一步的活动。

robots.txt 会去哪里?

Robots.txt 是 WebCrawler 或搜索引擎在访问网站时首先查看的内容。 它只在主目录中查找。 如果在那里找不到,爬虫程序会继续处理站点中的所有内容。 所以必须在主目录或根域中放置一个robot.txt 文件

为了解释这一点,让我们以 wordpress.com 为例。 如果用户代理访问 www.wordpress.com/robots.txt 并且没有机器人文件,则假定该站点没有任何说明。 所以它开始索引每一页。 如果机器人文件存在于 www.wordpress.com/index/robots.text 或 www.wordpress.com/homepage/robots.txt 用户代理将找不到它。 它将被视为没有robot.txt 的站点。

创建 Robots.txt 文件的步骤?

robots.txt 文件包含两个字段; 一行带有用户代理名称或多行带有指令。 第二行表示爬虫必须在网站上执行的操作。 让我们看看如何创建 robots.txt 文件

  • 第一步是打开一个新的文本文件。 您可以在 PC 上使用记事本和在 Mac 上使用文本编辑器,并将其保存为包含文本的文件
  • 将其上传到您的根目录。 它是一个名为“htdocs”或“www”的根级文件夹。 因此,这紧随您的域名之后。
  • 如果存在子域,则为每个子域创建它

这是 robots.txt 的基本格式

用户代理:[用户代理名称]

Disallow : [不被抓取的 URL 字符串的名称]

这基本上称为 robots.txt 文件。 可能有多个用户行和指令。 它可以是允许、禁止、爬行延迟等

robots.txt 中的技术术语:

有一些与 robots.txt 语言相关的常用词。 它们被称为 robots.txt 语法。 robots.txt 文件中常用五个主要词。 他们是:

用户代理 :

用户代理是您正在向其提供指令的网络爬虫或搜索引擎。

不允许:

该命令指示爬虫不要爬取特定的 URL。 每个 URL 只能使用一个禁止行。

允许:

此命令仅用于 Google Bot。 通过发出此命令,即使其父页面被禁止,Google bot 也可以访问该子文件夹或页面。

爬行延迟:

它表示加载和爬取页面内容之前的等待时间。 它不适用于 Google bot,但您可以为 Google Search Console 设置时间

网站地图:

它用于调用与 URL 关联的任何 XML 站点地图的位置。 它仅受 Google、Yahoo、Bing 和 Ask 支持。

这些是您在 robots.txt 语法中应该知道的最常见的术语。 现在您可以通过查看 robots.txt 文件来预测命令

Robots.txt 文件中要包含哪些内容?

Robot.txt 只是为网络机器人提供有关访问或不访问任何内容的说明。 如果您不想向用户显示任何网页,您可以使用 robots.txt 文件为抓取工具提供指导。 否则,您可以使用密码保护它。 像这样,您可以隐藏任何管理页面或私人页面的位置。 它可以防止机器人爬到这些私人页面。

现在让我们通过一些示例来检查如何做到这一点

  • 允许一切并提交站点地图:

这对所有网站都是一个不错的选择。 这允许搜索引擎在任何地方爬行并索引所有数据。 它还允许显示 XML 位置,以便爬虫可以轻松访问新页面

用户代理:*

允许: /

#站点地图参考

站点地图:www.wordpress.com/sitemap.xml

  • 允许除一个子目录之外的所有内容

有时,您的页面中会有一个您不想在搜索结果中显示的区域。 它可以是图像、结帐区域、文件、审核部分等。您可以禁止它

用户代理: *

允许: /

# 不允许的子目录

禁止:/checkout/

禁止:/图像/

不允许:/审计报告/

  • 允许除某些文件之外的所有内容:-

有时您可能想在您的网站上显示媒体或图像或显示文档。 但您不希望它们出现在搜索结果中。 您可以隐藏动画文件、gif、pdf 或 PHP 文件,如下所示

用户代理:*

允许: /

#禁止文件类型

禁止:/*.gif$

禁止:/*.pdf$

禁止:/*.php$

  • 允许除某些网页之外的所有内容:-

有时您可能想隐藏一些不适合阅读的页面,可能是您的条款和条件中的任何内容,或者您​​不想向他人展示的任何敏感主题。 您可以按如下方式隐藏它们

用户代理: *

允许: /

#禁止网页

禁止:/terms.html

Disallow:/secret-list-of contacts.php

  • 允许除某些 URL 模式之外的所有内容

有时您可能希望禁止某些 URL 模式。 它可以是测试页面、任何内部搜索页面等

用户代理: *

允许: /

#disallow URL 模式

禁止:/*搜索=

禁止:/*test.php$

在上述这些条件下,您发现了许多符号和字符。 在这里,我正在解释它们每个人的实际含义

  • 星号 (*) 表示任意数量的字符或单个字符。
  • 美元符号 ($) 表示 URL 的结尾。 如果你忘了放它,你会不小心阻止大量的 URL

注意: - 注意不要禁止整个域。 有时你可以看到这样的命令

用户代理: *

不允许: /

你知道这意味着什么吗? 您是说搜索引擎不允许您的整个域。 因此,它不会索引您的任何网页,并且您不能出现在任何搜索结果中。 所以要小心不要把这个不小心放了。

最终测试:

检查您的 robots.txt 文件是否正常工作很重要。 即使您做对了,也建议进行适当的检查

您可以使用 Google 的 robots.txt 工具来查找您的文件是否一切正常。 首先,您需要在Google站长工具中注册您应用robots.txt文件的站点。 注册后登录该工具并选择您的特定站点。 现在,Google 会向您显示所有注释以显示错误。

如何检查您的网站是否有 robots.txt 文件?

您可以轻松地检查这一点。 让我们以前面的 word press 为例。 输入您的网站地址 www.wordpress.com 并添加 /robots.txt。 即 www.wordpress.com/robots.txt。 现在,您可以查看您的站点是否有 roborts.txt 文件。

其他快速 robots.txt 提示:

  • 如果您将 robots.txt 放在网站的顶级目录中,很容易被注意到
  • 如果您禁止任何子目录,则该子目录中的任何文件或网页都将被禁止
  • Robots.txt 区分大小写。 您必须将其输入为 robots.txt。 否则,它不会工作
  • 一些用户代理可能会忽略您的 robots.txt 文件。 电子邮件抓取工具或恶意软件机器人等某些爬虫可能会忽略此文件
  • /robots.txt 是公开的。 所以最好不要隐藏任何私人用户信息。 如果您将 /robots.txt 添加到任何根域的末尾,您可以看到您想要抓取或不想抓取的页面,如果它有一个 robots.txt 文件。
  • 搜索引擎需要几天时间才能识别不允许的 URL 并将其从索引中删除
  • 根目录中的每个子域都使用一个单独的 robots.txt 文件。 例如,blog.wordpress.com 和 wordpress.com 使用单独的 robots.txt 文件。 即 blog.wordpress.com/robots.txt 和 wordpress.com/robots.txt
  • 最好将位置添加到 robots.txt 文件底部的任何站点地图

你对这个概念有概念吗? 很简单吧? 您可以将此应用到您的网站并提高其性能。 没有必要在您的网站上显示所有内容。 您可以向用户隐藏您的管理页面或条款和条件等。 Robots.txt 文件将在这方面为您提供帮助。 明智地使用它来指示站点地图并使您的站点索引更快。

Robot.txt 不仅是关于禁止不需要的内容或文件。 这对于更快的下载也非常重要。 你可以很容易地做到这一点。 没有任何与技术知识相关的东西来完成这项任务。 经过非常好的分析,任何人都可以做到这一点。 应用后不要忘记使用 Google.robot.txt 工具对其进行测试。 它可以帮助您确定添加的文本中是否有任何错误。

在 SEO 的各个方面更新自己是非常重要的。 当您身处一个每天都在发生新变化的市场中时,您必须了解您周围发生的一切。 尝试实施最现代的技术,使您的网站取得巨大成功。