如何在 Google Search Console 中修复“已抓取 - 当前未编入索引”

已发表: 2021-12-28

Google 的文档将 Crawled – 当前未索引状态定义为：

该页面已被 Google 抓取，但未编入索引。将来可能会或可能不会被索引；无需重新提交此 URL 进行抓取。
来源：谷歌

阅读此说明可能会令人沮丧，尤其是当状态影响到对您的业务很重要的页面时。谷歌的定义没有说明发生了什么以及你接下来可能会做什么。它只是说Googlebot 抓取了您的页面，但由于某种原因，决定不将其编入索引。

根据我们的研究，已抓取 - 目前未编入索引状态是索引覆盖率报告中报告的最常见问题。 这意味着您可能已经体验过它，或者您将来可能会体验到它。

尽快解决问题至关重要。毕竟，如果您的网页没有被索引，它就不会出现在搜索结果中，也不会从 Google 获得任何自然流量。

本文介绍了爬网的可能原因——目前不是索引状态以及修复它们的方法。

内容隐藏

1您在哪里可以找到已抓取 - 当前未编入索引的状态？

1.1指数覆盖率报告

1.2 URL检查工具

2报告错误：您的页面可能实际上已被编入索引

3抓取的原因和解决方案 - 目前未编入索引状态

3.1索引延迟

3.1.1解决方案

3.2页面不符合质量标准

3.2.1解决方案

3.2.2用户生成的内容

3.3页面被取消索引

3.3.1解决方案

3.4网站架构问题

3.4.1解决方案

3.5重复内容

3.5.1解决方案

4已爬网 - 当前未编入索引与已发现 - 当前未编入索引

5总结

您在哪里可以找到已抓取 - 当前未编入索引的状态？

您可以在 Google Search Console中的索引覆盖率报告和URL 检查工具中找到状态。

指数覆盖率报告

已爬网——当前未编入索引属于“已排除”类别，这表明Google 不认为该页面未编入索引是错误的。

这些页面通常不编入索引，我们认为这是适当的。这些页面要么与已编入索引的页面重复，要么被您网站上的某些机制阻止编入索引，或者由于我们认为不是错误的原因而未编入索引。
来源：谷歌

单击“已抓取 - 当前未编入索引”状态后，您将看到受影响的 URL 列表。您应该检查它并优先解决对您最有价值的页面的问题。

该报告也可用于导出。但是，您最多只能导出 1000 个 URL。如果更多页面受到影响，您可以通过过滤特定于站点地图的页面来增加导出 URL 的数量。例如，如果您有两个站点地图，每个站点地图有 1000 个 URL，您可以分别导出它们。

网址检查工具

Google Search Console 中的 URL 检查工具还可以通知您已抓取的 URL - 当前未编入索引。

Google Search Console 中的 URL 检查工具报告特定 URL 的索引覆盖率状态，例如已抓取 - 目前未编入索引

该工具的顶部会通知您是否可以在 Google 上找到该 URL。如果检查的 URL 在索引覆盖率报告中属于排除类别，则 URL 检查工具将报告以下内容：“该页面不在索引中，但不是因为错误。”

下面，您可以找到有关被检查 URL 的当前覆盖状态的更多具体信息——在上面的 URL 被抓取的情况下——当前未编入索引。

报告错误：您的页面实际上可能已编入索引

在注意到 Crawled – current not indexed 状态后，您应该做的第一件事是调查您的页面是否真的没有被索引。

标记为已抓取的页面并不少见——目前未在索引覆盖率报告中编入索引，而 URL 检查工具表明该页面实际上已编入索引。

URL 检查工具允许您检查有关特定 URL 的详细信息，包括：

索引问题，
结构化数据错误，
移动可用性，
查看加载的资源（例如，JavaScript）。

您还可以请求为 URL 编制索引或查看页面的呈现版本。

Google 的 John Muller 在 Google 的 SEO 办公时间内解决了索引覆盖率报告和 URL 检查工具之间的差异问题：

我最近在 Twitter 上看到了一些类似的帖子，人们在其中看到了在 Search Console 中被标记为未编入索引的 URL。然后，当您单独检查它们时，它们实际上已编入索引。我还不知道那里到底发生了什么。 [...]我怀疑这更多的是时间问题——我们在 Search Console 报告中显示它们，然后随着时间的推移它们被编入索引。 然后在某个时候，他们会再次退出报告。无论出于何种原因，退出所花费的时间比应有的要长一些。
资料来源：约翰·穆勒

正如约翰所说，这可能只是这两个工具之间的延迟和数据同步问题，并且随着时间的推移，索引覆盖率报告中的状态可能会更新。

但是，这并不总是只是延迟。有时它是一个报告错误。

9 月，我们注意到我们的一些已编入索引的文章报告已被抓取——目前尚未编入索引。

使用 GSC，您可以检查哪些页面已被 Google 抓取但仍未被 Google 索引。
GSC 将我们的一些文章列为已抓取 - 目前未编入索引。
但是，URL 检查工具将这些显示为已编入索引。
它们实际上已编入索引。
任何见解，#SEOTwitter？ pic.twitter.com/xKv0IYpGLa
— Onely (@OnelyCom) 2021 年 9 月 16 日

这绝对不是延迟问题，因为旧文章也受到了影响。

不久之后，包括 Lily Ray 在内的其他 SEO 开始注意到这个问题。

其他人已经对此发表了推文，但我在 GSC 的“已抓取，未编入索引”报告（带有最近的抓取日期）中看到了许多 URL 示例，这些示例实际上是已编入索引的 URL。
检查单个 URL 通常会导致以下消息。
想法@danielwaisberg @googlesearchc？ pic.twitter.com/i1XfcvldEq
— 莉莉·雷 (@lilyraynyc) 2021 年 9 月 28 日

在这种情况下该怎么办？哪个报告值得信赖？

通常， URL 检查工具显示的数据比索引覆盖率报告更新。 这就是为什么在被迫在这些报告之间进行选择时，您应该始终更加信任 URL 检查工具。

抓取的原因和解决方案 - 目前未编入索引状态

现在，让我们深入了解问题的根源——导致状态出现的原因以及您可以采取哪些措施来解决它。

Google 没有明确回答您的网页被抓取但未编入索引的原因，但可能出现该状态的原因有几个，包括：

索引延迟，
页面不符合质量标准，
页面被取消索引，
网站架构问题，
重复的内容问题。

索引延迟

谷歌访问页面的情况并不少见，但索引它需要一段时间。互联网无限大，谷歌需要优先考虑哪些页面首先被索引。

在我的索引 SEO 终极指南中，我展示了热门网站上的页面需要多长时间才能被索引。以下是我的一些调查结果：

发布 1 天后，Google 仅将 56% 的可索引 URL 编入索引。
2 周后，只有 87% 的 URL 被编入索引。
资料来源： Tomek Rudzki

如果您刚刚发布了您的页面，它尚未被编入索引可能是完全正常的，您需要等待更长的时间让 Google 为您的内容编入索引。

解决方案

您无法在短期内影响网页的抓取和索引，但从长远来看，您可以采取一些措施来帮助您的网站：

创建索引策略以帮助 Google 优先考虑您网站上的正确页面。为此，您需要确定应将哪些页面编入索引以及将其传达给 Google 的最佳方法。
确保有指向您关心的页面的内部链接。它将帮助 Google 找到页面并了解有关其上下文的更多信息。
创建一个优化良好的站点地图。这是一个简单的文本文件，列出了您有价值的 URL。谷歌将使用它作为路线图，以更快地找到页面。

页面不符合质量标准

Google 无法索引 Internet 上的所有页面。它的存储空间是有限的，这就是为什么它需要过滤掉低质量的内容。

Google 的目标是提供最能满足用户意图的最高质量页面。这意味着，如果页面质量较低，Google 很可能会忽略它，从而将存储空间留给更高质量的内容。我们可以预期，未来的质量标准只会变得更加严格。

解决方案

作为网站所有者，您应该确保您的页面提供高质量的内容。检查它是否可能满足用户的意图，并在需要时添加优质内容。 Google 提供了一系列问题来帮助您确定内容的价值。这里是其中的一些：

内容是否提供原始信息、报告、研究或分析？
内容是否提供了深刻的分析或超出显而易见的有趣信息？
这是您想要添加书签、与朋友分享或推荐的页面吗？
如果内容借鉴了其他来源，它是否避免简单地复制或重写这些来源，而是提供大量的附加价值和原创性？

来源：谷歌

此外，您还可以使用 Google 质量评估者指南中关于质量内容的提示。尽管该文档主要是供搜索质量评估员评估网站质量的，但网站管理员可以使用它来获得有关如何改进自己网站的一些见解。如果您想了解更多信息，请查看我们的质量评估指南指南。

用户生成内容

从质量的角度来看，用户生成的内容可能是一个问题。

例如，假设您有一个论坛，并且有人提出问题。尽管以后可能会有很多有价值的回复，但在抓取的时候，还没有，所以谷歌可能会将页面归类为低质量的内容。

怎么做才能保护自己免受这种情况的影响？

Quora 想出了一个很好的策略来解决这个问题。每个未回答的问题在 URL 中都有“/unanswered/”前缀。

这是一个示例： https ://www.quora.com/unanswered/Are-you-really-happy-with-your-results

robots.txt 文件会阻止 URL 中包含 /unanswered/ 的所有页面。这意味着 Googlebot 无法抓取它们。

一旦问题得到答复，URL 就会更改并可供抓取。这样，Quora会阻止访问用户生成的低质量内容。

页面被取消索引

一个 URL 可能会受到“已爬网”的影响——目前没有被索引状态，因为它过去曾被索引，但谷歌决定随着时间的推移将其取消索引。

如果您想知道为什么某些内容可能会从索引中消失，很可能它们只是被更高质量的内容所取代。

索引选择虽然主要与（RAM/闪存/磁盘）空间有关，但与内容质量密切相关。如果我们有大量可用空间，我们更有可能索引更糟糕的内容。如果我们不这样做，我们可能会取消索引内容以为更高质量的文档腾出空间。 pic.twitter.com/jRMkEqdft0
— Gary 鲸理／경리 Illyes (@methode) 2020 年 5 月 15 日

此外，您应该注意算法更新。有可能推出了一种新算法，并且您的页面受到了它的影响。

不幸的是，去索引也可能是由谷歌方面的一个错误引起的。例如， Search Engine Land 曾经因为谷歌错误地认为该网站被黑客入侵而被取消索引。

解决方案

去索引页面的解决方案与其质量密切相关。您应该始终确保您的页面提供最优质的内容并且是最新的。不要假设一旦一个页面被索引，你就不需要再对它做任何事情了。继续监控它并在必要时实施更改和改进。

[...]核心更新后掉线的页面没有任何问题需要修复。也就是说，我们理解那些在核心更新更改后表现不佳的人可能仍然觉得他们需要做点什么。我们建议您专注于确保您提供最好的内容。这就是我们的算法所寻求的回报。
来源：谷歌

解决问题后，您可以将这些 URL 提交到 Google Search Console，以帮助 Google 更快地注意到更改。

网站架构问题

当 John Mueller 被问及页面被标记为“已抓取”（目前未编入索引状态）的可能原因时，他提到了另一个可能的原因——网站结构不佳。

您不能强制将页面编入索引——我们不会为所有网站上的所有页面编入索引是正常的。这不是“那个页面”的问题，它更适用于整个站点。创建良好的网站结构并确保网站具有最高质量基本上是方向。
— johnmu.xml（个人）（@JohnMu）2021 年 6 月 28 日

让我们想象一个情况，您有一个高质量的页面，但谷歌找到它的唯一方法是因为您将它放在您的站点地图中。

Google 可能会查看该页面并对其进行抓取，但由于没有内部链接，它会假设该页面的价值低于其他页面。 没有语义或结构信息可以帮助它评估页面。这可能是 Google 决定专注于其他页面并在抓取该页面后将其排除在索引之外的原因之一。

解决方案

良好的网站架构是帮助您最大限度地提高被索引机会的关键。它允许搜索引擎机器人发现您的内容并更好地理解页面之间的关系。

这就是为什么提供良好的网站架构并确保有指向您想要被索引的页面的内部链接至关重要的原因。

如果您想了解有关网站结构的更多信息，请查看我们关于如何构建排名和转换的网站的文章。

重复内容

SEO 自由职业者 Adam Gent与 SEO 社区分享了一个有趣的案例。他的页面报告被抓取——目前没有被索引，因为谷歌认为这是一个重复的页面。

Google 希望向用户呈现独特且有价值的内容。这就是为什么当它在抓取过程中意识到某些页面相同或几乎相同时，它可能只索引其中一个。

通常，另一个在索引覆盖率报告中被标记为“重复”。但是，情况并非总是如此，有时 Google 会分配 Crawled - 目前未编入索引状态。

目前尚不完全清楚为什么 Google 可能会选择 Crawled - 目前没有针对重复内容的专用状态编制索引。一种可能的解释是，在 Google 决定是否有更适合该页面的状态后，状态将在稍后发生变化。

另一种选择可能是报告错误。 谷歌在分配状态时可能只是犯了一个错误。不幸的是，这种情况更具挑战性，因为已爬网 - 目前未编入索引并不能为您提供与重复内容的专用状态一样多的信息。

如何检查搜索结果中是否显示重复页面？

转到未编入索引的页面并复制随机文本片段。
将 Google 搜索中的文本用引号括起来。
分析结果。如果显示带有复制文本的不同 URL，则可能意味着您的页面未编入索引，因为 Google 选择了不同的 URL 来编入索引。

解决方案

首先，您应该确保创建原始页面。如有必要 - 添加独特的内容。

不幸的是，重复的内容可能是不可避免的（例如，您有移动版和桌面版）。您对搜索结果中显示的内容没有太多控制权，但您可以向 Google 提供有关原始版本的一些提示。

如果您发现索引了很多重复的内容，请评估以下元素：

规范标签——这些 HTML 标签告诉搜索引擎哪些版本是原始版本。
内部链接——确保内部链接指向您的原始内容。谷歌可能会使用它作为哪个页面更重要的指标。
XML 站点地图——确保只有规范版本在您的站点地图中。

请记住，这些只是提示，Google 没有义务遵循它们。 在 Adam Gent 描述的案例中，Google 选择了 RSS 提要版本进行索引，尽管许多规范化信号指向不同的原始 URL。 Adam 通过设置 404 以确保仅保留原始版本来解决该问题。他还建议在所有提要 URL 上设置X-robots HTTP 标头，以阻止它们被索引。

已爬网 - 当前未编入索引与已发现 - 当前未编入索引

已爬网 - 当前未编入索引状态通常与索引覆盖率报告中的另一个索引问题混淆：已发现 - 当前未编入索引。

这两种状态都表明该页面未编入索引。但是，对于 Crawled（目前未编入索引），Google 已经访问了该页面。同时，在“已发现”（目前未编入索引）中，该 URL 为 Google 所知，但由于某种原因，它尚未被抓取。

	已爬网 - 目前未编入索引	已发现——目前未编入索引
Google 发现的页面	是的	是的
Google 访问的页面	是的	不
页面索引	不	不

这些状态的一些原因可能是相似的，包括质量差的页面和内部链接问题。但是，当您看到已发现 - 当前未编入索引状态时，您需要另外调查 Google 无法或不想访问该页面的原因。例如，它可能表示整个网站的整体质量存在问题、抓取预算问题或服务器过载。

包起来

已爬网——目前未编入索引主要与页面质量相关，但实际上，它可以指示更多问题，例如网站架构或重复内容。

以下是文章中可以帮助您处理已抓取（目前未编入索引）状态的主要内容：

为您的页面添加独特且有价值的内容。完成后，将这些 URL 提交到 Google Search Console。这样，谷歌可能会更快地注意到变化。
检查您的网站架构并确保有指向您有价值页面的内部链接。
决定哪些页面应该和不应该被编入索引，以帮助 Google 优先考虑最有价值的 URL。

如果您需要帮助解决已抓取的问题——您的网站上当前未编入索引状态，我们的技术 SEO 服务就是您所需要的。