如何使用 Google Search Console 的索引覆盖率报告

已发表: 2021-12-28

索引覆盖率是 Google Search Console 中的一份报告,显示 Google 为您的网站发现的所有 URL 的抓取和索引状态。

它可以帮助您跟踪网站的索引状态,并让您随时了解阻止您的页面被正确抓取和索引的技术问题。

定期检查索引覆盖率报告将帮助您发现和理解问题并了解如何解决这些问题。

在这篇文章中,我将描述:

  • 指数覆盖率报告是什么,
  • 何时以及如何使用它,
  • 报告中显示的状态,包括问题的类型、它们的含义以及如何解决它们。
内容隐藏
1指数覆盖率报告何时推出?
1.1 2021 年指数覆盖率报告更新
2谷歌的索引管道
2.1发现
2.2爬行
2.3索引
2.4排名
3如何使用索引覆盖率报告?
3.1 “所有提交的页面”与“所有已知页面”
3.2检查 URL 状态
4您应该多久查看一次报告?
5网址检查工具
6指数覆盖率报告中的状态和问题类型
6.1错误
6.2警告有效
6.3有效
6.4排除
7结论

指数覆盖率报告何时推出?

谷歌于 2018 年 1 月开始向所有用户发布经过改进的 Search Console 版本时推出了索引覆盖率报告

除了索引覆盖率之外,改进后的 Search Console 还包含其他有价值的报告:

  • 搜索效果报告,
  • 搜索增强报告:AMP 状态和职位发布页面。

谷歌表示,谷歌搜索控制台的重新设计是受到用户反馈的推动。 目标是:

  • 添加更多可操作的见解,
  • 支持使用该工具的不同团队的合作,
  • 在 Google 和用户的网站之间提供更快的反馈循环。

2021 年指数覆盖率报告更新

2021 年 1 月, Google 改进了索引覆盖率报告,以使报告的索引问题对用户更加准确和清晰。

报告的更改包括:

  • 删除通用的“抓取异常”问题类型,
  • 使已提交但被 robots.txt 阻止并被编入索引的页面报告为“已编入索引但被阻止”(在警告中)而不是“已提交但被阻止”(错误),
  • 添加一个名为“无内容索引”的问题(警告),
  • 使软 404 问题的报告更加准确。

谷歌的索引管道

在深入研究报告的细节之前,让我们讨论一下 Google 需要采取哪些步骤来索引并最终对网页进行排名。

对于要对页面进行排名并向用户显示的页面,需要对其进行发现、抓取和索引。

发现

谷歌需要首先发现一个页面才能抓取它。  

发现可以通过几种方式发生。

最常见的是 Googlebot跟踪到页面的内部或外部链接,或者通过XML 站点地图找到它这是一个列出和组织您域上的 URL 的文件。

爬行

爬行包括搜索引擎探索网页并分析其内容。

抓取的一个重要方面是抓取预算,它是搜索引擎可以并且想要花费在抓取您的网站上的时间和资源量。 搜索引擎的抓取能力有限,只能抓取网站上的一部分页面。 阅读有关优化抓取预算的更多信息。

索引

在编制索引期间,Google 会评估页面并将它们添加到索引中 - 一个包含 Google 可用于生成搜索结果的所有网页的数据库。 此阶段还包括渲染,这有助于 Google 查看页面的布局和内容。 Google 收集的有关页面的信息有助于它决定如何在搜索结果中显示它。

但是,仅仅因为 Google 可以找到并抓取您的页面,并不意味着它会被编入索引。

被谷歌索引变得越来越复杂。 这主要是因为网络在增长,网站变得越来越重。

但这里是要记住的关键索引方面:您不应该将所有页面都编入索引。

相反,请确保索引只包含对用户有价值的高质量内容的页面。 某些页面可能包含低质量或重复的内容,如果搜索引擎看到它们,可能会对他们对整个网站的看法产生负面影响。

这就是为什么创建索引策略并决定哪些页面应该和不应该被索引是至关重要的。 通过准备索引策略,您可以优化爬网预算,遵循明确的索引目标并相应地解决任何问题。

如果您想了解有关索引的更多信息,请先浏览我们的索引 SEO 指南。

排行

被索引的页面可以被排名并出现在相关查询的搜索结果中。

谷歌根据许多排名因素决定如何对页面进行排名,例如链接的数量和质量、页面速度、移动友好性、内容相关性等等。

如何使用索引覆盖率报告?

要获取索引覆盖率报告,请登录您的 Google Search Console 帐户。 然后,在左侧的菜单中,选择 Index 部分中的“Coverage”:

索引覆盖率报告中的覆盖率部分

然后您将看到报告。 通过勾选每个或所有状态,您可以选择要在图表上显示的内容:

guide-google-search-console-index-coverage-report - 2-guide-google-search-console-index-coverage-report

该报告将显示响应以下四种状态的 URL,这些状态与 Google 在特定页面上遇到的不同问题相关联:

  • 错误- 抓取或索引中的关键问题。
  • 警告有效- 已编入索引但包含一些非严重错误的 URL。
  • 有效– 已正确编入索引的 URL。
  • 排除——由于问题而没有被索引的页面——这是最重要的部分。

“所有提交的页面”与“所有已知页面”

在左上角,您可以选择是否要查看“所有已知页面”,这是默认选项,显示 Google 通过任何方式发现的 URL,或者“所有提交的页面”,仅包括在站点地图中提交的 URL。

您应该会发现“所有提交的页面”和“所有已知页面”的状态之间存在明显差异——“所有已知页面”通常包含更多 URL,其中更多被报告为已排除。 这是因为站点地图应该只包含可索引的 URL,而大多数网站包含许多不应被索引的页面。 一个例子是电子商务网站上带有跟踪参数的 URL。 像 Googlebot 这样的搜索引擎机器人可能会通过各种方式找到这些页面,但它们不应该在您的站点地图中找到它们。

因此,在打开“索引覆盖率”报告时请务必注意,并确保您正在查看您感兴趣的数据。

检查 URL 状态

要查看针对每种状态发现的问题的详细信息,请查看图表下方:

guide-google-search-console-index-coverage-report - 3-guide-google-search-console-index-coverage-report

此部分显示状态、特定类型的问题以及受影响的页面数。

您还可以查看验证状态 - 修复问题后,您可以通知 Google 该问题已得到解决并要求验证修复。

单击问题后,可以在报告顶部执行此操作:

指南-google-search-console-index-coverage-report - 4-guide-google-search-console-index-coverage-report

验证状态可以显示为“固定”。 但它也可能显示“失败”或“未开始”——您应该优先解决以这些状态响应的问题。

您还可以查看每个状态的趋势——URL 的数量是上升、下降还是保持在同一水平。

单击其中一种类型后,您将看到哪些 URL 响应此问题。 此外,您可以检查每个 URL 的最后一次抓取时间 - 但是,由于 Google 报告可能存在延迟,这些信息并不总是最新的。

还有一个图表显示日期以及问题如何随时间变化。

guide-google-search-console-index-coverage-report - 5-guide-google-search-console-index-coverage-report

以下是您在使用报告时应注意的一些重要注意事项:

  • 始终检查您是否正在查看所有提交的页面或所有已知页面。 站点地图中页面的状态与 Google 发现的所有页面之间的差异可能非常明显。
  • 该报告可能会延迟显示更改,因此每当您发布新内容时,请至少给它几天时间以使其被抓取和编入索引。
  • Google 会向您发送电子邮件通知,告知您网站上遇到的任何特别紧迫的问题。
  • 您的目标应该是索引您希望用户和机器人找到的页面的规范版本。
  • 随着您的网站增长和您创建更多内容,预计报告中的索引页面数量会增加。

您应该多久查看一次报告?

您应该定期检查索引覆盖率报告,以发现在抓取和索引您的页面时出现的任何错误。 通常,尝试至少每月检查一次报告。

但是,如果您对网站进行任何重大更改,例如调整布局、URL 结构或进行网站迁移,请更频繁地监控结果以发现任何负面影响。 然后,我建议至少每周访问一次报告,并特别注意Excluded 状态

网址检查工具

在深入了解索引覆盖率报告中每个状态的细节之前,我想提一下 Search Console 中的另一个工具,它可以让您深入了解已抓取或编入索引的页面。

URL 检查工具提供有关 Google 索引页面版本的详细信息。

您可以在 Google Search Console 中页面顶部的搜索栏中找到它。

只需粘贴您要检查的 URL - 然后您将看到以下数据:

guide-google-search-console-index-coverage-report - 6-guide-google-search-console-index-coverage-report

您可以使用 URL 检查工具:

  • 检查 URL 的索引状态,如果出现问题,请查看它们是什么并进行故障排除,
  • 了解 URL 是否可编入索引,
  • 查看 URL 的呈现版本,
  • 请求将 URL 编入索引——例如,如果页面已更改,
  • 查看加载的资源,例如 JavaScript,
  • 查看 URL 有资格获得哪些增强功能——例如,基于结构化数据的实施以及页面是否适合移动设备。

如果您在索引覆盖率报告中遇到任何问题,请使用 URL 检查工具来验证它们并测试 URL,以更好地了解应该修复的内容。

索引覆盖率报告中的状态和问题类型

是时候查看报告中的四种状态中的每一种了:

  • 讨论他们可以展示的具体问题类型,
  • 是什么导致了这些问题,以及
  • 你应该如何解决它们。

错误

错误部分包含由于 Google 遇到的错误而未编入索引的 URL。

每当您看到包含“已提交”的问题时,它都与已提交索引的 URL 有关,这通常是通过站点地图完成的,这就是 Google 发现它们的方式。 确保您的站点地图仅包含您要编入索引的 URL。

服务器错误 (5xx)

顾名思义,它是指状态码为 5xx 的服务器错误,例如 502 Bad Gateway 或 503 Service Unavailable。

您应该定期监控此部分,因为Googlebot 在索引存在服务器错误的页面时会遇到问题。 您可能需要联系您的服务器管理员来修复这些错误,或检查它们是否是由您站点上的任何最近升级或更改引起的。

查看 Google 关于如何修复服务器错误的建议。

重定向错误

重定向将搜索引擎机器人和用户从旧 URL 转移到新 URL。 它们通常在旧 URL 更改或其内容不再存在时实施。

重定向错误指向以下问题:

  • 重定向链(当 URL 之间有多个重定向时发生)太长,
  • 重定向循环 – URL 相互重定向,
  • 超过最大 URL 长度的重定向 URL,
  • 在重定向链中发现错误或空 URL。

检查并修复每个受影响 URL 的重定向- 如果您不确定从哪里开始,请按照我的重定向指南进行操作。

提交的 URL 被 robots.txt 阻止

这些 URL 在站点地图中提交,但在robots.txt 中被阻止。 Robots.txt 是一个文件,其中包含有关机器人应如何抓取您的网站的说明。 如果此 URL 应被编入索引,Google 需要先对其进行抓取,因此请前往您的 robots.txt 文件并调整指令。

提交的 URL 标记为“noindex”

与上一个错误类似,这些页面已提交索引,但被HTTP 响应中的 noindex 标记或标头阻止 “Noindex”可防止页面被编入索引——如果受影响的 URL 应该被编入索引,请删除 noindex 指令。

提交的 URL 似乎是软 404

软 404 错误意味着页面返回 200 OK 状态,但其内容使其看起来像错误,例如,因为它是空的或包含稀薄的内容。 查看出现此错误的页面,并检查是否有办法更改其内容或重定向它们。

提交的 URL 返回未经授权的请求 (401)

401 Unauthorized状态码表示请求无法完成,因为需要使用有效的用户 ID 和密码登录 Googlebot 无法索引隐藏在登录后的页面——在这种情况下,要么删除授权要求,要么验证 Googlebot 以便它可以访问这些页面。

未找到提交的 URL (404)

404 错误页面表示无法找到请求的页面,因为它已更改或被删除。 每个网站上都存在错误页面,一般来说,其中一些不会损害您的网站。 但是,每当用户遇到错误页面时,都可能导致负面体验。

如果您在报告中看到此问题,请查看受影响的 URL 并检查是否可以修复错误。 例如,您可以设置 301 重定向到工作页面。 此外,请确保您的站点地图不包含任何返回 200 OK 以外的任何 HTTP 状态代码的 URL。

提交的网址返回 403

403 Forbidden状态码表示服务器理解请求但拒绝授权 您可以向匿名访问者授予访问权限,以便 Googlebot 可以访问该 URL,或者如果无法做到这一点,则从站点地图中删除该 URL。

由于其他 4xx 问题,提交的 URL 被阻止

由于其他错误类型中未指定的 4xx 问题,您的 URL 可能不会被编入索引 4xx错误一般是指客户端引起的问题。

您可以使用URL 检查工具详细了解导致每个问题的原因 如果您无法解决错误,请从站点地图中删除该 URL。

警告有效

带有警告的有效 URL 已编入索引,但可能需要您注意。

已编入索引,但已被 robots.txt 阻止

页面已编入索引,但 robots.txt 文件中的指令将其阻止。 通常,这些页面不会被编入索引,但 Google 很可能会找到指向它们的链接并认为它们很重要。

检查受影响的页面——如果它们应该被编入索引,请更新您的 robots.txt 文件以允许 Google 访问它们。 如果这些页面不应被编入索引,请查找指向它们的任何链接。 如果您希望抓取 URL 但不编入索引,请实施 noindex 指令。

无内容索引的页面

这些 URL 已编入索引,但 Google 无法读取其内容。

此问题的常见原因包括:

  • 伪装——向用户和搜索引擎显示不同的内容,
  • 页面是空的,
  • Google 无法呈现页面,
  • 该页面采用 Google 无法编入索引的格式。

自己访问这些页面并检查内容是否可见。 此外,请转到 URL 检查工具以了解 Googlebot 如何查看它。 然后,在解决问题或未发现任何问题后,您可以请求 Google 重新索引它。

有效的

此状态显示正确编入索引的 URL。 但是,监视此报告部分以查看是否不应将任何 URL 编入索引仍然很好。

提交并编入索引

这些是通过站点地图正确编入索引和提交的 URL。

已编入索引,未在站点地图中提交

在这种情况下,一个 URL 已被编入索引,即使它未包含在站点地图中。  

您应该检查 Google 是如何访问此 URL 的。 您可以在 URL 检查工具中找到此信息。

此部分中的 URL 通常包含站点的分页,这是正确的,因为不应在站点地图中提交分页。 查看 URL 并检查是否应将它们添加到站点地图中。

排除在外

这些是尚未编入索引的页面。 您可能会注意到,这里的许多问题都是由与前几节相似的方面引起的。 主要区别在于谷歌不认为排除以下网址是错误引起的。

您可能会发现本节中的许多 URL 已出于正确的原因被排除在外。 但重要的是要定期检查哪些 URL 没有被编入索引,以及为什么要确保您的关键 URL 没有被排除在索引之外。

被“noindex”标签排除

未提交页面以进行索引编制,但 Googlebot 找到了该页面,但由于 noindex 标记而无法将其编入索引。 浏览这些 URL 以确保索引中阻止了正确的 URL。 如果应将任何 URL 编入索引,请删除该标记。

被页面删除工具阻止

这些 URL 已被 Google 使用Google 的删除工具阻止 但是,这种方法只能暂时有效,通常在 90 天后,Google 可能会再次在搜索结果中显示它们。 如果要永久阻止页面,可以删除或重定向它或使用 noindex 标记。

被 robots.txt 屏蔽

这些 URL 已在 robots.txt 文件中被阻止,但未提交索引。 您应该浏览这些 URL 并检查您是否打算阻止它们。

请记住,使用 robots.txt 指令并不是防止索引页面的万无一失的方法。 Google 可能仍会在不访问页面的情况下为其编制索引,例如,如果其他页面链接到该页面。 要将页面保留在 Google 的索引之外,请使用其他方法,例如密码保护或 noindex 标记。

由于未经授权的请求而被阻止 (401)

在这种情况下, Google 收到了 401 响应代码,并且无权访问这些 URL。

这往往发生在登台环境或其他受密码保护的页面上。

如果不应将这些 URL 编入索引,则此状态很好。 但是,要确保这些 URL 不在 Google 的范围内,请确保 Google 无法找到您的暂存环境。 例如,删除指向它的任何现有内部或外部链接。

已爬网 - 目前未编入索引

Googlebot 已抓取一个网址,但正在等待决定是否应将其编入索引。

这可能有很多原因。 例如,可能没有问题,Google 很快就会将该 URL 编入索引。 但是,如果页面的内容质量不高或看起来与网站上的许多其他页面相似,Google 通常会等待将其编入索引。 然后,谷歌将其放入优先级较低的队列中,并专注于索引更有价值的页面。

如果您想了解可能导致此状态的原因以及如何解决任何问题,请务必阅读我们关于如何修复“已抓取 - 当前未编入索引”的文章。

已发现——目前未编入索引

这意味着谷歌已经找到了一个网址——例如,在站点地图中——但还没有抓取它。

请记住,在某些情况下,这可能只是意味着 Google 将很快抓取它。 这个问题也可能与抓取预算问题有关——谷歌可能会认为您的网站质量低下,因为它缺乏性能或包含稀薄的内容。

可能,Google 没有找到任何指向此 URL 的链接,或者遇到了具有更强链接信号的页面,它会首先抓取。 如果有很多质量更好或更新的页面,Google 可能会跳过抓取该 URL 几个月,甚至根本不抓取它。

具有适当规范标签的备用页面

此 URL 是由正确标记标记的规范页面的副本,它指向规范页面。 规范标签用于指定代表页面主要版本的 URL。 当存在许多相同或相似的页面时,这是一种防止重复内容问题的方法。

在这种情况下,您无需进行任何更改。

没有用户选择的规范的重复

此页面有重复,未指定规范版本。 这意味着Google 不会将指定的 URL 视为规范。

您可以使用URL 检查工具来了解 Google 选择了哪个 URL 作为规范。 最好自己选择规范版本,并使用 rel=”canonical” 标签在您的 URL 中相应地标记它。

重复,谷歌选择了与用户不同的规范

您选择了一个规范页面,但 Google 选择了一个不同的页面作为规范。

您希望作为规范的页面在内部的链接可能不如非规范页面那么强,然后谷歌可能会选择它作为规范版本。

解决此问题的一种方法是合并重复的 URL。 如果您想了解有关此状态的可能原因和解决方案的更多信息,请阅读我们关于如何修复重复的指南,Google 选择了与用户问题不同的规范问题。

未找到 (404)

这些是未在站点地图中提交的 404 错误页面,但 Google 仍然找到了它们。

谷歌本可以通过链接发现它们,或者因为它们之前存在但后来被删除。

如果您打算不找到此页面,则无需执行任何操作。 另一种选择是使用 301 重定向将 404 移动到工作页面。

带有重定向的页面

这些页面正在重定向,因此尚未编入索引。 此处的页面通常不需要您注意。

要永久重定向页面,请确保您实施了 301 重定向到最近的替代页面。 将 404 页面重定向到主页可能会导致Google 将其视为软 404。

软404

如前所述,这些 URL 类似于错误页面,但不返回 404 状态代码。 例如,它们可能是自定义 404 页面,其中包含指向其他页面的用户友好内容,但返回 200 OK HTTP 代码。

修复软 404 错误,您可以:

  • 添加或改进这些 URL 上的内容,
  • 301 将它们重定向到最接近的匹配替代品,或
  • 配置您的服务器以返回正确的 404 或 410 代码。

重复的,提交的 URL 未被选为规范

这包括在站点地图中提交但未指定规范版本的 URL。

Google 认为这些 URL 与其他 URL 重复,并决定使用 Google 选择的规范 URL 规范化这些 URL。 您应该添加指向首选 URL 版本的规范 URL。

由于访问被禁止而被阻止 (403)

Google 无法访问这些 URL 并收到403 Forbidden 错误代码。 如果 Google 不应该访问这些 URL,最好使用 noindex 标记。

由于其他 4xx 问题而被阻止

这些 URL 以其他4xx 状态代码响应- 检查这些页面以了解错误是什么。 然后,要么根据出现的特定代码修复它,要么让页面保持原样。

结论

索引覆盖率报告显示了您的抓取和索引问题的详细概述,并指出应如何解决这些问题,使其成为SEO 数据的重要来源。

您网站的抓取和索引状态并不简单——并非所有页面都应该被抓取或索引。 确保搜索引擎机器人无法访问此类页面与正确索引您最有价值的页面一样重要。

该报告反映了您的索引状态不是黑色或白色的事实。 它突出显示了您的 URL 可能处于的状态范围,显示了严重的错误和并不总是需要采取措施的小问题。

最后,您应该定期浏览 Google 的索引覆盖率报告,并在它与您的索引策略不一致时进行干预。