索引 SEO 101:如何为您的网站创建索引策略
已发表: 2021-12-14搜索引擎不应索引您网站上的所有页面。
即使您认为您网站上的所有内容都很棒,但大多数网站都有大量根本不属于搜索结果的页面。 如果您让搜索引擎索引这些页面,您可能会面临负面后果。
这就是为什么您需要为您的网站制定索引策略。 其关键要素是:
- 确定您希望搜索引擎索引哪些页面,并使用适当的方法最大限度地提高其被索引的机会,
- 决定哪些页面不应该被编入索引,以及如何在不限制潜在搜索可见性的情况下将它们从搜索中排除。
决定哪些页面应该或不应该被索引是很困难的。 您可能会找到一些针对特定页面的指南和提示,但您通常会靠自己。
选择适当的方法从搜索结果中排除这些页面需要更多的考虑。 您应该使用 noindex 标记还是 canonical 标记,在 robots.txt 中阻止页面,还是使用永久重定向?
本文将概述允许您为您的网站创建自定义索引策略的决策过程。
虽然您可能会遇到不符合我建议的逻辑的极端情况,但下面强调的过程将在绝大多数情况下为您提供出色的结果。
为什么有些页面不应该被索引
您不希望搜索引擎为您的所有页面编制索引的主要原因有两个:
- 它有助于优化抓取预算,
- 许多可索引的低质量内容可能会损害搜索引擎对您网站的看法。
优化您的抓取预算
搜索引擎机器人可以抓取给定网站上有限数量的页面。 互联网是无限大的,抓取一切都会超过搜索引擎拥有的资源。
搜索引擎机器人在抓取您的网站上花费的时间和资源称为抓取预算。 如果您将抓取预算浪费在低质量页面上,那么实际上应该索引的最有价值的页面可能就不够了。
通过花时间决定要索引哪些页面,您可以优化抓取预算并确保搜索引擎机器人不会将资源浪费在不太重要的页面上。
如果您想了解有关优化抓取预算的更多信息,请查看我们的抓取预算优化终极指南。
不要让低质量的内容损害您的网站
如果搜索引擎意识到您有很多低质量的内容,他们可能会决定停止经常抓取您的网站。
Tomek Rudzki 在他的索引 SEO 终极指南中称其为“集体责任”。
这是一个恶性循环:
- Google 会抓取低质量的网页。
- 谷歌经常停止访问该网站。
- 许多页面从未被 Google 抓取过,即使它们是高质量的页面。
- 有一些有价值的页面没有被索引。
这显示了排名、爬网和索引是如何相互关联的。
资料来源: Tomasz Rudzki
控制索引的方法
您可以使用多种方法来控制页面的索引,包括:
- Noindex 机器人元标记,
- robots.txt 中的 Disallow 指令,
- 规范标签,
- 永久重定向,
- XML 站点地图。
上述每种方法都有自己的用途和功能。
Noindex 机器人元标记
<元名称=“机器人”内容=“无索引”>如果您将上述指令添加到页面的 HTML <head> 部分,搜索引擎机器人将理解他们不应该将其编入索引。 它将阻止该页面出现在搜索引擎的结果页面上。
如果您不希望页面被索引,您应该使用此标签,但您仍希望搜索引擎机器人抓取您的页面,例如,跟随该页面上的链接。
robots.txt 中的禁止指令
用户代理: * 禁止:/example/page.html
robots.txt 文件中的 disallow 指令允许您阻止搜索引擎访问该页面。 如果搜索引擎机器人遵守该指令,它就不会抓取不允许的页面,因此它们不会被编入索引。
由于 disallow 指令会限制抓取,因此此方法可以帮助您节省抓取预算。
注意: disallow 指令不是阻止对敏感页面的访问的正确方法。 恶意机器人会忽略 robots.txt 文件,但仍然可以访问内容。 如果您想确保所有机器人无法访问某些页面,最好使用密码阻止它们。
规范标签
<link rel="canonical" href="https://www.example.com/page.html">规范标签是一个 HTML 元素,它告诉搜索引擎哪些重复的 URL 是原始 URL。
使用规范标签,您可以准确指定要索引并显示在搜索结果中的页面版本。 如果没有规范标签,您将无法控制您的页面的哪个版本被编入索引。
搜索引擎机器人仍然需要抓取页面以发现规范标签,因此使用它不会帮助您节省抓取预算。
永久重定向
301 重定向是指示永久重定向的 HTTP 响应代码。 它指定请求的页面有一个新位置,并且旧页面已从服务器中删除。
当您使用 301 重定向时,用户和搜索引擎机器人不会访问旧 URL。 相反,流量和排名信号将被重定向到新页面。
使用 301 重定向是节省抓取预算的好方法。 您正在减少网站上可用页面的数量,因此搜索引擎机器人可以抓取的内容更少。
请记住,您应该只重定向到相关页面。 重定向到不相关的页面可能会使用户感到困惑。 此外,搜索引擎机器人可能不会遵循重定向并将页面视为软 404。
XML 站点地图
XML 站点地图是一个文本文件,其中列出了您希望搜索引擎索引的 URL。 其目的是帮助搜索引擎机器人轻松找到您关心的页面。
一个经过优化的站点地图不仅可以将搜索引擎引导到您有价值的页面,还可以帮助您节省抓取预算。 没有它,机器人需要爬取整个网站以发现您有价值的内容。

这就是为什么站点地图应该只列出您网站上的可索引 URL。 这意味着您放入站点地图的页面应该是:
- 典范,
- 未被 noindex robots 元标记阻止,并且
- 未被 robots.txt 中的 disallow 指令阻止,
- 响应 200 状态码。
您可以在我们的 XML 站点地图终极指南中了解有关优化站点地图的更多信息。
如何决定哪些页面应该或不应该被索引
为了帮助您决定哪些页面应该或不应该被索引,我创建了一个决策树,其中包含您需要回答的所有基本问题。

以全尺寸查看图像。
正如您在上面看到的,基本问题是:这个页面对任何人都有价值吗?
这个问题有三个可能的答案:
- 该页面对搜索引擎用户(和搜索引擎)很有价值,
- 该页面对搜索引擎有价值,
- 该页面对任何人都没有价值。
底线是只有对用户有价值的页面才应该被索引。 但是,即使在该类别中,也有一些类型的页面不应该被编入索引。
让我们分解一下。
对用户有价值的页面
如果页面为搜索引擎用户提供了搜索答案或允许他们导航到答案,则该页面对搜索引擎用户很有价值。
在大多数情况下,如果页面对用户有价值,则应将其编入索引。 但是,仍然可能存在页面对用户有价值但不应该被索引的情况。
对用户有价值的页面应该被索引
如果出现以下情况,则应将页面编入索引:
- 它提供高质量、独特的内容,带来流量,
- 它是不同高质量页面的替代语言版本(如果适用)。
高质量、独特的内容
为您的网站带来流量的高质量、独特的页面绝对应该出现在您的站点地图中。 确保您没有在 robots.txt 中阻止它们,并且它们没有 noindex 元机器人标签。
特别注意对您的业务最有价值的页面。 他们通常会带来最多的转化。 像这样的页面:
- 主页,
- 关于我们和联系页面,
- 包含有关您提供的服务的信息的页面,
- 展示您的专业知识的博客文章,
- 包含特定项目(如电子商务产品)的页面,
应该始终是可索引的,并且您应该定期监视它们的索引。
替代语言版本
搜索引擎不会将翻译的内容视为重复内容。 事实上,搜索引擎想知道您是否有多种语言版本可用于向不同国家/地区的用户展示最合适的版本。
如果您有页面的替代语言版本,您应该使用hreflang 标签指定它并将页面放入您的站点地图中。
您可以在站点地图、HTML 或两者中指定 hreflang 标记。 从搜索引擎的角度来看,站点地图中使用的 Hreflang 标签非常好。 但是,它们可能难以使用 SEO 工具或浏览器插件进行验证。 出于这个原因,添加标签的推荐方式是在 HTML 代码和站点地图中,或仅在 HTML 代码中。
请记住,每个页面都需要指定所有语言版本,包括其自己的语言。
对不应编入索引的用户有价值的页面
在某些情况下,页面可能对用户有价值,但它们仍然不应该被索引。 情况包括:
- 重复或接近重复的内容,
- 没有搜索需求的页面。
不同页面的重复或接近重复
如果出现以下情况,搜索引擎机器人可能会认为页面重复或接近重复:
- 两个或多个不同的 URL 指向同一个页面,
- 两个不同的页面具有非常相似的内容。
重复内容的最常见示例之一是电子商务网站上的过滤类别页面。 用户可以应用过滤器来缩小产品范围并更快地找到他们想要的东西。 不幸的是,每个应用的过滤器都可能将参数保存在 URL 中,从而创建多个指向同一页面的 URL。
例如,store.com/dresses/item 和 store.com/dresses/item?color=yellow 可能指向相同的内容。
重复或接近重复内容的其他原因包括:
- 移动版和桌面版具有不同的 URL,
- 拥有您网站的印刷版,或
- 错误地创建重复的内容。
具有可索引重复内容的风险包括:
- 无法控制可能出现在搜索结果中的版本。 例如,如果您有可用的印刷版和普通版,搜索引擎可能会在搜索中显示印刷版。
- 在多个 URL 之间划分排名信号。
- 大幅增加搜索引擎需要抓取的 URL 数量。
- 如果搜索引擎决定您要操纵排名(罕见的后果),则降低您在 SERP 中的位置。
为避免重复内容的负面影响,您应该致力于整合它。 执行此操作的主要方法包括规范标签和 301 重定向。
如果您需要所有页面都可供用户使用,那么规范标签是最佳选择。
应该在您的网站上保持可用的重复内容的一个示例是改善用户体验的内容。 例如,当用户在电子商务网站上过滤产品时,重定向它们可能会由于各种原因而造成混淆,例如面包屑的突然变化。
此外,当您为不同的设备提供不同的版本时,可能需要在您的网站上包含重复的内容。
使用301 重定向,您的网站上只有一个页面保持可用。 其余的将自动重定向。
例如,当您有两篇非常相似的博客文章并决定只保留一篇在您的网站上时,301 重定向可能会有所帮助。 301 状态代码会将流量和排名信号重定向到您选择的文章。 这是优化抓取预算的绝佳方法,但只有在您想要删除重复页面时才能使用它。
每当您使用永久重定向时,请记住在您的站点地图中进行更改。 您应该只在站点地图中放置响应 200 个状态代码的页面。 因此,如果您使用 301 重定向来整合内容,则只有保留在您网站上的版本应该保留在站点地图中。
没有搜索需求的页面
您的网站上可能有没有任何搜索需求的优质内容。 换句话说,没有人在寻找它。 这可能发生在您正在撰写有关利基爱好的文章或页面中包含例如“感谢您”的用户说明时。
这些页面可能不会带来流量或转化。 也许您想离开它们是因为它们补充了用户的旅程,但您不希望它们成为用户在搜索结果中看到的第一件事。
如果您认为用户不应该在搜索结果中看到特定页面,或者该页面不会带来任何流量,则无需将其编入索引。 这样,搜索引擎机器人可以专注于真正为您带来流量的页面。
要阻止对没有搜索需求的页面进行索引,请使用 noindex 元机器人标签。 机器人不会将其编入索引,但它们仍会抓取并跟踪该页面上的链接,从而为它们提供有关您网站的更多背景信息。
仅对搜索引擎有价值的页面
并非所有页面都旨在帮助用户。 其中一些帮助搜索引擎了解您的网站并发现链接。
看看这个LinkedIn页面:

它列出了所有用户的个人资料,使搜索引擎可以轻松找到所有链接。
一方面,这样的页面可能会使用户感到困惑并阻止他们留在网站上。 它们对他们没有价值,因此它们不应出现在搜索结果中,也不应被编入索引。
另一方面,它们对搜索引擎很有用——它们可以增强您的内部链接。
这就是为什么最好的解决方案是实施 noindex 元机器人标签,将这些页面排除在站点地图之外,并允许它们在 robots.txt 中进行抓取。 它们不会被索引,但机器人会抓取它们。
对任何人都没有价值的页面
有些页面对用户或搜索引擎没有价值。
其中一些是法律要求在您的网站上存在的,例如隐私政策,但是,说实话——没有人在搜索此类内容。 当然,你不能删除它们,但没有必要对它们进行索引,因为没有人想找到它们。 在某些情况下,它们的排名可能会超过更有价值的内容并“窃取”流量。
没有价值的页面还包含薄弱、低质量的内容。 您应该特别注意它们,因为它们会损害用户和搜索引擎对您网站整体质量的看法。 有关详细信息,请参阅低质量内容会损坏您的网站一章。
最重要的是,您需要确保没有值的页面具有 noindex 元机器人标签。 如果您不阻止他们的索引,他们可能会损害您的排名并阻止用户访问您的网站。
此外,如果您想优化抓取预算,请在 robots.txt 文件中屏蔽这些页面并删除指向它们的内部链接。 这将帮助您为更有价值的页面节省抓取预算。
包起来
了解您的哪些页面应该和不应该被索引并将其传达给搜索引擎机器人对于创建合理的索引策略至关重要。
它将最大限度地提高您的网站被正确抓取和索引的机会,并确保您的用户可以在搜索结果中找到您所有有价值的内容。
以下是您在创建索引策略时需要牢记的关键要点:
- 在决定是否应将页面编入索引时,问问自己它是否具有对用户有价值的独特内容。 不应阻止唯一有价值的页面被 noindex 元机器人标签编入索引,或阻止使用 robots.txt 禁止指令进行抓取。
- 如果您的低质量内容是可索引的,它可能会对您的排名产生负面影响,并使您有价值的页面面临未被索引的风险。
- 如果您的网站上有重复或接近重复的内容,您应该将其与规范标签或 301 重定向合并。
- 如果页面没有搜索需求,则不必编制索引——使用元机器人标签中的 noindex。
- 包含仅对搜索引擎有价值的内容或链接的页面应该使用 noindex 元机器人标签阻止被索引,但不要阻止它们在 robots.txt 中被抓取。
- 如果用户和搜索引擎都不能从访问给定页面中受益,则应在元机器人标签中将其设置为 noindex。
- 如果同一页面有多个替代语言版本,请保持它们可索引。 使用 hreflang 标签帮助搜索引擎了解这些页面之间的关系。
