如何检查大型网站的索引状态

已发表: 2022-02-04

在您的网页出现在搜索结果中并为您的网站带来流量之前,需要将它们编入索引。

不幸的是,获得索引是一项挑战,特别是如果您有一个大型网站。 根据我们的研究,网站上 16% 的有价值页面未编入索引。  

在采取措施改进网站的索引和搜索性能之前,检查网站的索引覆盖率并确定哪些页面被正确编入索引以及哪些没有被正确编入索引至关重要。

您可能面临的一项挑战是找到可靠的方法来检查您网站的索引状态,以便您批量分析 URL。 如果是这种情况,那么您来对地方了。

有一些有用的工具可以帮助您确定网站的索引覆盖率,还有助于对每个 URL 进行更彻底的分析,以确定它未​​编入索引的原因。

按照我在本文中的建议,了解如何检查大型网站的索引状态,分析阻止页面被索引的问题,并找到正确的解决方案。

内容隐藏
1在检查您的网站的索引状态之前做什么
2检查索引状态和诊断索引问题的方法
2.1 “站点:”命令
2.2谷歌搜索控制台中的工具
2.2.1指数覆盖率报告
2.2.2 URL检查工具
2.2.3 URL 检查 API
2.2.4 Google Search Console 工具的限制
2.2.5报告索引问题
2.3拉链
2.3.1分析索引覆盖率
2.3.2监控索引延迟
2.3.3关于去索引内容的警报
2.3.4 JavaScript 索引
2.3.5未编入索引页面的附加信息
2.4必应站长工具
2.4.1站点浏览器
2.4.2 Bing 的 URL 检查工具
3大型网站的常见索引问题
4如何解决索引问题
4.1确保你的页面是可索引的
4.1.1 robots.txt 文件中指定的指令
4.1.2页面是否包含noindex标签
4.2确保所有有价值的页面都在站点地图中提交
4.3调整你的内部链接
4.4修复重复内容问题
4.5遵循 JavaScript SEO 的最佳实践,以便更轻松地进行爬取和索引
4.6优化你的抓取预算
5要点

在检查您的网站的索引状态之前要做什么

在检查您的索引状态并解决您的问题之前,您需要有一个适当的索引策略。

通过创建它,您可以确定哪些页面是必要的并且应该被索引,哪些页面应该被排除在索引之外。

您的某些网页可能质量低下或包含重复内容,用户不应在搜索结果中找到它们。 通常,这些页面类型应该被排除在索引之外。

以下是一些不应编入索引的页面示例:

  • 存档内容,
  • 登录和密码保护的页面,
  • 由于排序或过滤而创建的带有添加参数的 URL,
  • 内部搜索结果,
  • 谢谢页面。

如果您不希望页面被索引,您可以:

  • robots.txt 文件中包含适当的机器人指令,以防止它们爬取给定页面,
  • 实施noindex 标记以防止搜索引擎机器人为页面编制索引。

尚未编入索引且应保持这种方式的 URL 不需要您注意。 相反,关注那些没有被索引但应该被索引的页面。

根据经验,您的目标应该是索引页面的规范版本并且应该在您的站点地图中提交它们。  

那么,您如何准确地找出哪些页面已编入索引,哪些未编入索引?

检查索引状态和诊断索引问题的方法

有一些有用的工具可以检查您网站的索引覆盖率。

但请记住,它们中的大多数对您可以检查的 URL 数量都有限制。 在网上查找时,您可能会遇到许多不可靠的工具。

我将向您展示哪些工具显示最准确的信息和解决方法以扩展其限制。  

另外,我将向您介绍我们的姊妹公司ZipTie开发的一种新的索引分析工具。

“站点:”命令

检查网站索引页数的一种流行方法是在 Google 搜索中输入“site:”命令,然后输入域名,例如“site:onely.com”。

虽然它可以让您检查网站的索引状态,但您将看到的数据可能具有误导性或不准确,因为这些数字只是估计值。

对于内容动态变化的大型网站,这种方法尤其不准确。

每次使用它时,结果可能会为您的域显示完全不同数量的索引页面。

但是,虽然“site:domain”命令远非最佳,但您可以使用“site:URL”命令,在该命令中输入特定的 URL 而不是域名。 然后,您可以了解特定 URL 是否已被编入索引。

John Mueller 推荐了这个解决方案:

Google Search Console 中的工具

Google Search Console 提供了更好的工具来检查您的索引覆盖率。

如果您还没有经常使用它们,请立即开始——它们应该成为您的标准 SEO 监控工具。

让我更详细地描述它们,并建议如何在大型网站上充分利用它们。

指数覆盖率报告

Google Search Console 中索引覆盖率报告为您提供来自 Google 的有关哪些页面被索引的数据。

此外,它还让您深入了解您的网址的发现、抓取和编入索引的具体状态,以及(如果适用)Google 发现哪些问题会阻止它们被编入索引。

索引覆盖率报告状态

索引覆盖率报告显示四种状态:

  • 错误 – 页面因错误而未编入索引。
  • 警告 - 该页面已编入索引,但 Google 发现了一个您应该注意的问题,
  • 排除 - 该页面未编入索引,但 Google 认为您打算将其保留为未编入索引。
  • 有效 - 页面被索引没有问题。

在左上角,您可以选择显示“所有已知页面”(即 Google 以任何方式发现的所有 URL)或“所有提交的页面”(Google 在您的站点地图中找到的页面)。

“所有提交的页面”视图应包含您要编入索引的所有页面。 您应该将此视图与“所有已知页面”进行比较。

如果某些页面出现在“所有已知页面”中但未出现在“所有提交的页面”中,并且它们应该被编入索引,请将它们放在您的站点地图中。 如果它们不应该被索引,这意味着谷歌正在其他地方找到它们,也许是通过链接。

该报告的主要限制是每个显示特定问题的报告仅显示 1000 页。 幸运的是,有一些方法可以解决它。

一种解决方案是为网站的不同部分创建单独的域属性。

另一种方法是通过创建多个站点地图并将报告缩小到单独的站点地图来划分您的页面。

过滤到站点地图

建议每个站点地图最多包含 50000 个 URL。

在站点地图之间划分页面有很多角度。 考虑以一种有助于您将相似类型的内容分组以便于分析的方式来排列它们。

以下是一些建议:

  • 不同类型内容的单独站点地图,例如类别、产品、博客文章、
  • 选定数量或种类的产品的单独站点地图,
  • 不同语言版本的站点的单独站点地图。

现在,选择其中一个站点地图并导航到报告的“排除”部分

浏览它显示的问题 - 在右侧,您可以查看受影响页面的数量并了解哪些问题是最常见的。

谷歌索引覆盖率报告中的问题

报告的状态非常详细地描述了每个问题的原因,并且在大多数情况下,它们指出了您需要采取的措施来解决这些问题。

我的 Google Search Console 索引覆盖率报告完整指南中查看如何处理每个状态

在排除的页面中查找模式。 如果许多页面具有相似的内容或布局,则仅查看部分 URL 可以让您了解其余页面可能遇到的问题。

网址检查工具

Google Search Console 中另一个有用的功能是URL 检查工具。  

它使您可以检查特定 URL 是否在 Google 的索引中并查看大量附加信息。 您可以使用此工具来补充您从指数覆盖率报告中收到的数据。

网址检查工具

以下是URL 检查工具最重要功能的概述

  • 存在状态——该 URL 是否有资格出现在 Google 搜索结果中以及 Google 检测到的任何警告或错误。
  • 查看抓取的页面——技术细节,例如 Google 收到的 HTML 和 HTTP 响应。
  • 请求索引- 使用它来要求 Google 重新抓取和重新索引您的 URL。 此功能有每日限制。 尽管 Google 的文档中没有明确说明它,但它被提及为一种提交“仅几个 URL”的方法。 它可能允许您提交多达 50 个 URL
  • 页面覆盖状态的详细信息,即:
  1. 是否有任何已知的站点地图指向该 URL,
  2. 引荐页面——谷歌可以用来发现 URL 的页面,
  3. 上次抓取页面时,
  4. 页面是否可抓取,
  5. 是否可以从服务器获取页面,
  6. 页面是否可索引,
  7. 用户声明的规范 URL,
  8. Google 选择的规范网址。
  • 增强功能- 此部分显示 Google 是否在页面上找到有效的结构化数据,以及有关页面移动可用性和 AMP 的详细信息。
  • 测试实时 URL – 您可以在 URL 上运行实时测试,例如,如果您想验证修复或更改。

URL 检查工具要求您检查每个 URL 的索引状态,如果您有一个大型网站,这可能会很耗时。

但是,分析页面样本已经可以指出您的网站正在处理的问题。

您可以选择并检查已从 Google 索引中排除的部分 URL,而不是检查所有 URL。 您还可以收集应该被编入索引但没有获得自然流量的 URL。

此外,您的网站可能包含以下部分:

  • example.com/shop
  • example.com/blog
  • example.com/gallery。

您可以从每个独特的部分中选择一些 URL 进行分析。 但不要只选择几个 URL - 为每个部分使用具有代表性的示例。

网址检查 API

2022 年, Google 宣布发布 URL Inspection API,它允许您每天针对单个 Google Search Console 资源发送多达 2000 个请求。

对于那些发现 URL 检查工具数据有用但一次只能检查一个 URL 的人来说,这是一个好消息。 通过 API 访问 URL 检查数据,您可以自动执行该过程,从而为使用此信息开辟了多种新的可能性。

Google Search Console 工具的限制

Google Search Console 工具并非没有缺陷。

2021 年 10 月,用户报告在索引覆盖率报告中看到 URL 标记为“已抓取 - 目前未编入索引”。 但是,当使用 URL 检查工具进行检查时,这些 URL 被列为“已提交并已编入索引”或其他状态。

谷歌回应称,这种情况不是错误,而是索引覆盖率报告的限制:

报告索引问题

谷歌于 2021 年 4 月宣布,它正在引入一项名为“报告索引问题”的功能,以帮助用户让谷歌意识到索引问题。 该功能目前在美国可用。

用户可以访问表单并选择他们的网站或页面是否未编入索引,或者已编入索引但未正确排名。 然后将指导他们完成与报告的问题相关的故障排除选项。

如果这些解决方案失败,他们可以直接向 Google 报告问题。

但是,应将此功能视为最后的手段,并且不能保证 Google 会遵循您的请求并将您的内容编入索引。

谷歌的目标是只索引最相关的高质量内容。 因此,遵循最佳做法并优化您的网页以使其可抓取、可索引且值得 Google 关注,可以为您的网站带来持久的结果。

拉链

ZipTie提供各种广泛的功能,用于分析任何网站的索引状态,无论其大小。 该工具特别适用于大型企业型网站。

这正是 ZipTie 提供的功能:

分析索引覆盖率

ZipTie 的核心功能是它会告诉您哪些页面没有被 Google 索引。  

而且,重要的是,ZipTie 可以分析的 URL 数量没有限制。 这对于具有数千或数百万个无法使用其他工具成功评估的 URL 的大型网站非常重要。

至关重要的是,您可以检查任何域的索引覆盖范围——不仅是您的域,还包括您的竞争对手的域。 然后,将您的索引状态与竞争域进行比较,看看您应该改进哪些领域才能取得成功。

监控索引延迟

ZipTie 可让您监控索引延迟并估计您新发布的内容何时会被索引,以及何时可以预期它会增加流量。

这是通过分析添加到站点地图的新 URL 并调查从发布内容到它出现在搜索结果中的时间来完成的。

取消索引内容的警报

ZipTie 将更新您已取消索引的内容量。 已经编入索引的页面可能会在一段时间后从 Google 的索引中删除——此功能可让您在发生这种情况时快速做出反应。

JavaScript 索引

索引基于 JavaScript 的页面很棘手——但 ZipTie 提供了帮助。

具体来说,ZipTie 可以确定 Google 是否将使用 JavaScript 生成的特定页面片段编入索引。

了解 Google 是否在呈现和索引基于 JavaScript 的内容时遇到问题至关重要。 如果是这种情况,ZipTie 可以让您准确了解哪些页面元素存在问题。

未编入索引页面的附加信息

作为奖励, ZipTie 提供有关未编入索引的 URL 的其他信息,例如它们的字数、标题、标题、图像计数、元描述等。 这在调查索引问题的可能原因和识别未索引页面之间的模式时非常重要。

您可以将 ZipTie 中的数据导出为 CSV 文件,并轻松将其与其他工具(如 Google Analytics 或 Google Search Console)中的数据相结合。

ZipTie 尚未公开发布。 随着该工具的开发进展,将发布有关它的更多详细信息。 您可以通过注册 ZipTie 的邮件列表了解官方发布的最新信息 

但您不必等待。

立即联系 ZipTie 的团队,深入分析您网站的索引状态。

必应网站管理员工具

即使出现在 Bing 中不是您的首要任务,Bing 网站管理员工具也可以帮助您深入了解所有类型的索引问题,其中一些问题您可能在其他搜索引擎中也遇到过。

站点资源管理器

首先,让我们看一下站点资源管理器。  

Site Explorer 工具允许您浏览网站的结构和页面索引状态的详细信息,以及其他数据:

必应网站浏览器

使站点资源管理器脱颖而出的一个方面是可以选择按文件夹对 URL 进行分组,其中每个文件夹可以代表一个子域或 URL 路径的一部分。 因此,您可以访问大量页面的数据。

您有权访问的爬网信息包括:

  • Indexed – 给定文件夹中的索引 URL 数量,
  • 错误- 导致指定 URL 未被编入索引的严重抓取错误,
  • 警告- 已发现这些 URL 存在指南问题、临时抓取问题、robots.txt 中不允许等。定期监控此部分以发现受影响 URL 中的任何峰值或下降,
  • 排除– 已从索引中排除的 URL,例如,由于垃圾邮件违规或排名较低。

您可以选择进一步过滤 URL 以根据特定功能显示页面。

bing过滤器

这些过滤器可让您识别需要您注意的 URL,并在解决索引问题时为您指明正确的方向。

Bing 的 URL 检查工具

另一个很棒的功能是补充站点资源管理器必应 URL 检查工具它可以让您查看特定 URL 是否在 Bing 的索引中,以及是否识别出任何索引或抓取错误。

将 URL 粘贴到工具中 - 然后您会看到很多补充信息。

索引卡部分,您可以查看URL 的索引状态及其详细信息,例如发现 URL 的时间和抓取方式。

您还可以查看页面的 HTML 代码和系统收到的 HTTP 响应。

必应网址检查工具

如果由于错误导致 URL 未被编入索引,您将能够采取进一步的措施,例如请求将 URL 编入索引、联系支持人员、调整您的 robots.txt 文件等。

Bing 提供了有关为什么页面可能未编入索引的指导- 以下是一些原因:

  • 没有链接指向您的页面,
  • 页面不符合质量阈值,
  • Robots.txt 指令阻止了页面的抓取,
  • 该页面还有其他抓取问题 - 实时 URL 功能将帮助您进一步查看它,
  • 该页面有一个 noindex 标签,可以防止它被索引,
  • 该 URL 尚未被发现和抓取,只是需要更多时间,
  • 该页面违反了质量指南,已被处罚并从索引中删除。

在诊断其他搜索引擎(如 Google)中的索引问题时,您可以进一步将其用作参考点

如果 URL 未编入索引并且应该编入索引,Bing 允许您提交 URL 以进行索引

重要的是限制相对较高——您每天最多可以提交 10000 个 URL。 这远远超过了 Google 报告的最多 50 个 URL 的限制。

大型网站的常见索引问题

大多数网站都会出现索引问题,它们可能会对您网站的自然搜索性能产生灾难性影响。

Tomek Rudzki 研究了不同网站规模最常见的索引问题

通过他的研究,我们现在知道大型网站通常存在以下问题:

  • 已爬网 - 目前未编入索引,
  • 已发现 - 目前未编入索引,
  • 重复内容,
  • 软404,
  • 抓取问题。

另一个典型问题涉及内部链接。 Googlebot 需要按照路径查找页面——如果它没有与其他页面连接,它可能会被排除在索引之外。

如何解决索引问题

您可以采取措施最大限度地提高您的网页被索引的机会。

当您发现未编入索引的 URL 并且无法确定它们未编入索引的原因时,这些解决方案也很有帮助。

确保您的页面是可索引的

确定您的页面是否可索引包括查看两个方面:

robots.txt 文件中指定的指令

robots.txt 包含有关网络爬虫应在网站上爬取的内容的说明。 确保没有“禁止”指令阻止您的有价值页面被抓取。  

页面是否包含 noindex 标签

Noindex 标签允许搜索引擎机器人访问页面,但阻止它们被索引。

批量检查您的页面是否可索引,请使用 SEO 爬虫,例如Screaming Frog。  

您可以将 URL 列表粘贴到该工具中并开始爬网。 完成后,查看 Indexability 列,它将告诉您页面是 Indexable 还是 Non-Indexable。

尖叫青蛙可转位性

确保所有有价值的页面都在站点地图中提交

检查未索引的页面是否已在站点地图中提交- 如果没有,请相应地添加它们。

此外,请确保您的站点地图不包含最初不应编入索引的 URL。 允许搜索引擎发现和抓取不相关的页面可能会导致抓取效率低下,并延长机器人查找最高质量内容所需的时间。

如果您没有站点地图,您可以轻松创建它或使用专用工具使其保持最新状态,例如Yoast SEOScreaming Frog 的 SEO Spider 您还可以使用其中一种站点地图生成器工具。  

我们的站点地图终极指南将是您创建优化站点地图的第一资源。

调整您的内部链接

从 SEO 的角度来看,内部链接是您网站的一个重要方面。

仅在站点地图中包含 URL 对 Google 来说是不够的。 Googlebot 需要确保某个 URL 值得关注——因此,它需要找到突出其重要性的信号。

确保您没有孤立页面,即没有传入链接的页面。 您可以抓取您的网站以查找孤立页面 - 例如,使用 Screaming Frog 的孤立页面报告来完成。

改善内部链接的一些想法包括为相关产品创建部分撰写博客文章以链接到您网站上的其他页面。

您还需要有一个干净的网站架构。 这意味着组织网站上的内容,以便用户和机器人可以直观、快速地导航到您网站的每个部分。

修复重复内容问题

当您的网站上存在多个版本的相同或非常相似的内容时,搜索引擎可能难以确定哪个页面是最具代表性的版本。

为了使搜索引擎的工作更轻松,请实施指向您选择的规范 URL 的规范标签。 每个页面版本应该只有一个规范 URL。

您可以使用 Google Search Console 的工具来确定 Google 是否将此 URL 视为规范 URL,或者它是否选择了不同的 URL。

确保规范标签始终指向正确的规范页面。 如果它们指向重复页面,则主 URL 可能仍未编入索引。

遵循 JavaScript SEO 的最佳实践,以更轻松地进行抓取和索引

尽管搜索引擎在渲染和索引 JavaScript 方面做得更好,但它们对它的处理仍然不完美。

通常,如果搜索引擎认为不会对其内容进行任何重大更改,则搜索引擎可能不会在页面上呈现 JavaScript 。 此外,如果您的页面在使用和不使用 JavaScript 时看起来完全不同,那么您可能很难将它们编入索引。

您可以使用一些工具来分析 JavaScript 索引。

您可以使用我们的JavaScript 会做什么工具轻松检查页面的哪些部分依赖于 JavaScript

使用 Google 的 URL 检查工具中的实时测试查看 Googlebot 将如何在您的页面上呈现 JavaScript 内容的屏幕截图。 然后,您可以转到更多信息选项卡以查找 JavaScript 错误。

URL 检查工具中的“查看已抓取的页面”选项将告诉您 Google 在您的页面上抓取了哪些内容,以及是否所有的 JavaScript 内容都在那里。

如果JavaScript 索引出现问题,请参阅我们关于 JavaScript SEO 的文章以获取更多指导。

优化您的抓取预算

抓取预算是网站上搜索引擎可以并且想要抓取的页面数量

您网站的抓取预算可能会受到多种因素的影响。

为了帮助您有效地抓取您的网页,请遵循以下一般准则:

  • 提高您的网络性能,
  • 优化您网站上的 JavaScript 和 CSS 文件,
  • 避免内部重定向和重定向链,
  • 调整您的网站架构,
  • 清理你的内部链接——更新任何指向 404 页面的链接,并经常链接到你最重要的内容,
  • 拥有结构合理的站点地图——您可以使用其中一种 SEO 爬虫(如RyteSitebulb)来分析站点地图的结构。

外卖

大型网站可能很难将其许多页面编入索引。 但这并不意味着索引所有有价值的内容是不可能的。

分析大型网站的索引可能需要一些工作。 尽管如此,谷歌搜索控制台和必应网站管理员工具中的可用功能将为您提供可操作的见解,您可以立即开始采取行动。

我认为您可以期待 ZipTie 将成为索引领域的游戏规则改变者——我鼓励您与 ZipTie 的团队联系以进行索引分析。

而且,如果您正在处理无法开始解决的大规模索引问题——我们已经看到了这一切,并会告诉您需要关注哪些痛点。 联系我们!