站点地图中要避免的 5 个错误

已发表: 2022-03-15

我们已经构建了一个工具,可以让我们检查给定网站上有多少页面在 Google 中被编入索引

到目前为止,我们检查了数百个网站,该工具帮助我们诊断了客户正在处理的 SEO 问题,例如与抓取预算和索引相关的问题。

在调查这些问题时,我们经常会遇到数据异常,并且看到许多网站在其站点地图中存在严重错误。

这对您的网站有何影响?

如果您的站点地图没有正确实施,Googlebot 可能会花费大量时间来抓取低质量的网址,这是对抓取预算的浪费。 因此,您网站上的许多有价值的 URL 可能不会在 Google 中编入索引,因为它没有足够的资源来抓取它们。

热门网站在其站点地图中犯了哪些错误,您如何避免这些错误以确保 Google 不会将抓取预算浪费在不相关的内容上?

让我们深入挖掘。

内容隐藏
1抓取预算是多少?
2站点地图对您的抓取预算有多重要?
3您应该在站点地图中避免哪些错误?
3.1提交格式错误的 URL
3.1.1威士忌.de
3.2提交精简内容 URL
3.2.1安泰勒
3.3跳过有价值的 URL
3.3.1好读
3.4过度使用 <lastmod> 参数
3.4.1雅芳
3.5在站点地图中链接到您的登台环境
3.5.1 Acehardware.com
4在站点地图中遵循的最佳实践
5总结

抓取预算是多少?

首先,让我解释一下什么是抓取预算以及它与网站索引的关系。

谷歌能够抓取大量内容,但它的资源并不是无限的——所以它需要对它拥有的资源做出选择。

这就是 Googlebot 为所有网站定义抓取预算的原因——它可以和想要抓取的 URL 数量。

网站的抓取预算取决于两个指​​标

  • 抓取容量限制 - 旨在抓取​​网站上的所有重要内容而不会超出其服务器的限制 - 并且,
  • 抓取需求——由网站的大小、受欢迎程度和更新频率决定。

如果网站速度变慢或响应服务器错误,则限制会下降,Googlebot 抓取的次数也会减少。
来源:谷歌的文档

由于 Googlebot 的功能有限,您应该计划 Googlebot 在您的网站上抓取哪些网址。

Google 的文档中解释了调整抓取哪些 URL 的关键:

管理您的网址库存:使用适当的工具告诉 Google 哪些网页可以抓取,哪些网页不可以抓取。 如果 Google 花费太多时间来抓取不适合索引的 URL,Googlebot 可能会认为不值得花时间查看您网站的其余部分。
来源:谷歌的文档

回顾一下——这是我们目前所知道的:

  • 如果您的网站速度较慢,Google 可能会抓取较少的网址,因此较少的网址会进入 Google 的索引,
  • 如果 Google 在抓取您的网站时能够发现大量低质量的网址,则可能会判定您网站的整体质量较低。

这是一个关键的要点:

由于有大量低质量的 URL 供 Google 抓取,Googlebot 可能会浪费大量时间来抓取它们,并且可能无法抓取您网站上的许多高质量 URL。

这对于大型或快速变化的网站来说最重要,因为它们需要经常和广泛地被抓取以吸引流量。

站点地图对您的抓取预算有多重要?

正如我所解释的,优化您的抓取预算对于您的网站索引而言是极其重要的一步。

管理 URL 库存的方法之一创建和维护经过优化的站点地图。  

站点地图是一个文件,您可以在其中提供有关您站点上的页面、视频和其他文件的信息,以及它们之间的关系 […]。 站点地图会告诉 Google 您认为哪些页面和文件在您的站点中很重要,并且还提供有关这些文件的有价值的信息。 例如,上次更新页面的时间以及页面的任何替代语言版本。
来源:谷歌的文档

但是,大量网站未能创建优化良好的站点地图。 幸运的是,我们可以从他们的错误中吸取教训。

您应该在站点地图中避免哪些错误?

我分析了许多热门站点,发现其中很多站点地图中的错误会对爬网预算产生负面影响,这可能会导致索引覆盖率出现问题。

这是我在创建站点地图时要避免的错误细分。

  1. 提交格式错误的 URL

我发现的错误之一与站点地图中的 URL 结构有关。  

让我们通过一个具体的例子来分析它。

威士忌.de

当我看到我们的软件收集的统计数据时,我惊呆了:它显示在站点地图中提交的whisky.de 页面中有 0% 被 Google 索引了。

我知道这不可能是真的,所以我进一步调查了数据。

Whisky.de 站点地图中的大多数 URL似乎都是有效的:

  • 他们是规范的,
  • 他们没有被 noindex robots 元标记阻止,
  • 他们没有被 robots.txt 中的 disallow 指令阻止,
  • 他们以 200 状态码响应。

但后来我注意到所有 URL 在顶级域之后都有双斜杠 - 看看这个示例:

  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaessern.html
  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
  • https://www.whisky.de//presse/pressespiegel/playboy.html

双斜杠在生成站点地图时似乎是一个明显的程序错误,而且很容易修复。

但是,站点地图中包含的页面具有指向相应 URL 的规范标签——它们的正确版本带有一个斜杠。

因此,Google 访问的 URL 很可能是预期的两倍:带有单斜杠和双斜杠的 URL。

谷歌有机制来发现 URL 中的错误模式,从技术上讲,谷歌有可能发现了错误。 因此,它可能会相应地抓取whisky.de 并索引结构正确的URL。 但是,如果不访问该网站的 Google Search Console 帐户或服务器日志,我们就无法进行检查。

在实践中,您不应该依赖 Google 的算法来修复您的错误——像我描述的那样的做法可能会给您的抓取预算带来压力,甚至会使您的网页不在 Google 的索引中。

提交精简内容 URL

有许多网站在其站点地图中包含薄内容页面。

让我给你看一个例子。

安泰勒

我在 AnnTaylor.com 上发现了这个错误,这是一家顶级的女装商店。

我想检查他们有多少产品类别在 Google 中被索引,所以我调查了他们专门用于类别页面的站点地图。

初步检查显示,只有 46% 的类别页面在 Google 中被编入索引。

因此,我更详细地研究了这一点,并了解到他们的大多数类别页面都是软 404。

具体来说,这些页面显示以下消息:

anntaylor 产品 无结果

Google 不想将它们编入索引也就不足为奇了!

下一个合乎逻辑的步骤是从我的样本排除软 404 。 为此,我检查了同一个站点地图的索引状态,但使用了一个触发器,该触发器排除了包含“我们进行了时尚搜索,但没有运气”这一短语的页面,如上图所示。

事实证明,在排除软 404 URL 后,其类别站点地图中多达 82% 的页面被编入索引。  

尽管如此,仍有18% 的类别页面没有在 Google 中编入索引——这是他们的 SEO 应该重点调查的内容。

AnnTaylor 的情况很严重,原因如下:

  • 首先,谷歌在抓取稀薄的内容上浪费了抓取预算。
  • 此外,谷歌从三个层面判断质量并不是一个谜:页面、部分和站点范围。 一般而言,Google 可能会判定类别页面质量低下,并且所有这些页面都可能会被取消索引 过去,它发生在 Giphy、Instagram 或 Pinterest 等网站上,正如我在我的一篇文章中所描述的那样。 让我们希望它不会发生在 AnnTaylor 身上。

跳过有价值的 URL

正如我已经提到的,站点地图可以帮助 Google 更好地了解您的网站并更智能地抓取它。

但是,我注意到许多网站没有在站点地图中包含其最有价值的 URL。

这是一个例子。

好读

我检查了 GoodReads 的一般样本(取自站点地图的所有 URL ),发现其中只有 35% 被编入索引。

我很惊讶,因为我知道这是一个非常高质量的网站。 我知道我不是唯一一个访问 GoodReads 阅读评论并了解某本书是否值得一读的人。

然后,我看到我们检查的样本没有包含书籍的 URL。 所以我决定下载他们所有的站点地图。

结果:站点地图中没有包含书籍的 URL。  

为什么这是一个不好的迹象?

谷歌可能会优先考虑站点地图中的 URL,并以某种方式跳过访问产品页面。

免责声明:GoodReads 不是我们的客户。 因此,从技术上讲,他们有可能将私人站点地图提交到 Google Search Console。

过度使用 <lastmod> 参数

您可以在站点地图文件中包含的参数之一是<lastmod>,指定页面的最后一次更新时间。 通过这种方式,Google 可以轻松选择最近更改的 URL。

但是,一些网站过度使用了这种技术。 这样做可能会产生不利影响,因为正如我们在Google 的指南中所读到的, 如果 <lastmod> 值始终如一且可验证(例如通过与页面的最后修改进行比较)准确,则 Google 会使用它。”

让我们看一个过度使用 <lastmod> 参数的网站示例。

雅芳

我查看了Avon 的产品站点地图,所有列出的 URL 都具有相同的 <lastmod> 参数——当天:

将 <lastmod> 日期显示为当前日期的站点地图

可以肯定的是,并非所有雅芳的 URL 每天都在变化,因此 Google 不愿意为其网页编制索引。

在站点地图中链接到您的登台环境

Google 将暂存 URL 编入索引是很常见的。  

谷歌如何找到这些页面的链接通常是一个谜。 但一个常见的解释是这些 URL 是直接从站点地图链接的。

Acehardware.com

请注意,acehardware.com 已经更新了站点地图并解决了以下错误。

这是我最初检查的样本。

如您所见,我发现他们从他们的站点地图链接到登台站点。

指向站点地图中登台站点的链接

为什么将您的登台环境包含在站点地图中是不好的?

  1. Google 会抓取不必要的网址。
  2. 如果暂存 URL 被编入索引,它们会使寻找特定信息的用户感到困惑,并在搜索结果中偶然发现它们。

在站点地图中遵循的最佳实践

您已经浏览了我在为网站创建和管理站点地图时要避免的事情的概述。

那么现在,您应该遵循哪些做法?

以下是我推荐的一些最佳实践:

– 仅在站点地图中包含规范 URL

– 最大站点地图大小应为 50,000 个 URL。 如果您有更多 URL,您可以将它们分解为更小的站点地图。

不要在站点地图中包含来自您的 URL 的会话 ID – 这样,您可以减少对给定 URL 的重复抓取。

– 使用一致且完整的 URL – 包括绝对而不是相对 URL。

正如我所提到的,请确保您的站点地图仅包含有价值的 URL。 您可以执行完整的网站爬网,以检查在爬网中找到的任何 URL 是否从您的站点地图中丢失。

这只是优化站点地图的冰山一角——有关进一步的建议,请阅读我们的 XML 站点地图终极指南。  

包起来

站点地图对每个网站都很有价值。

然而,正如您从我列出的网站示例中看到的那样,许多受欢迎的网站都没有优化站点地图,这是有代价的——它们的索引覆盖率受到了严重影响。

此外,请记住,站点地图中的 SEO 错误会对您的抓取预算产生负面影响,如果您拥有中型或大型网站,这一点至关重要。

我希望现在您知道要避免哪些错误,并且您将开始创建站点地图,以帮助 Google 更有效地抓取您的网站,从而提高索引覆盖率。