SEO 办公时间，2022 年 2 月 18 日

已发表: 2022-02-28

这是2022 年 2 月 18 日Google SEO Office Hours与John Mueller的最有趣问题和答案的摘要。

内容隐藏

1受产品评论更新影响的网站类型

2索引API的使用

3 EAT 和谷歌的算法

4未链接的品牌提及和用户生成的内容

5 Googlebot 和无限滚动

6在 Crawl Stats 报告中刷新和发现数据

7减少对网站的抓取

8 Google 如何识别网页所针对的国家/地区

9大量 URL 标记为已发现 - 目前未编入索引

受产品评论更新影响的网站类型

4:03 “[…] 我的问题是关于产品评论更新[…]。我想了解 Google 如何识别页面或网站是否与产品评论相关。 […] 例如，有一个电子商务网站 […]，他们也有一个博客，可以在其中评论自己的产品。他们确实写了他们产品的优缺点，比较不同的产品。 […] 谷歌会说 […] 这也是产品评论，可以通过产品评论更新来分析吗？ […]”

正如 John 解释的那样，“[…]我们对产品评论的建议 […] 将与任何类型的产品评论相关。 因此，我不一定会尝试查看，Google 是否认为我的网站是产品评论网站 [...]。相反，如果您认为这些良好做法适用于您的内容，那么只需执行这些良好做法 [...]”。

索引 API 的使用

6:53 “[…] [Google 的文档] 提到Indexing API应该用于职位发布或广播事件等页面。 我们是否可以针对不同类型的内容（例如一些新闻文章或博客内容）尝试使用此 API？”

约翰回答说：“人们尝试过。但本质上，我们记录的是我们使用 API 的目的。如果您没有属于这些类别的内容，那么 API 将无法帮助您”。

EAT 和 Google 的算法

10:54 “[...] EAT在 [质量评估指南]中被提及，但我想知道真正的算法是否也 [包括] EAT 因素，如作者的专业知识？”

约翰说：“我会假设已经做了一些间接的工作来尝试做类似的事情。 […] 我们将其放入指南中，以便我们可以指导质量测试人员仔细检查这些内容。如果我们认为这很重要，那么我会假设搜索质量方面的人们也在努力尝试以更算法的方式理解这一点。

但我不会看到 [...] [会有] EAT 分数，而且你必须得到五分或类似的分数。它更多的是试图理解网络上内容的上下文”。

未链接的品牌提及和用户生成的内容

12:01 “[…] 我看到人们在谈论未关联的品牌提及 [s] […]。你认为这对 [Google 的] 算法 […] 也很重要吗？”

通过未链接的品牌提及，此人指的是其他网站提及您的品牌但不包含指向您网站的链接的情况。

约翰说：“[...] 我认为这有点棘手，因为我们并不真正知道上下文是什么。我不认为这对用户来说是件坏事 […] 因为如果他们可以通过提及找到您的网站，那么这总是一件好事。 但我不会假设有一些 [...] SEO 因素试图找出有人在哪里提到您的网站名称”。

12:58 “[...] 用户评论或评论呢？你认为这也是文章或产品的排名因素吗？”

John 回应说：“[...] 通常，人们会用自己的话来描述该页面，这为我们提供了有关如何在搜索结果中显示该页面的更多信息。 从这个角度来看，我认为评论在页面上是一件好事。显然，找到一种以合理方式维护它们的方法有时很棘手，因为人们也会向这些评论发送垃圾邮件 […]。如果你能找到一种方法来维护网页上的评论，这会给你更多的背景信息，并帮助以不同方式搜索的人也能找到你的内容”。

Googlebot 和无限滚动

24:00 “[...] 你知道Googlebot 是否足够先进，可以处理无限滚动，或者至少是内容不断构建的东西吗？”

约翰说：“有一点[…]。

当我们渲染一个页面时会发生什么，我们使用一个相当高的视口，就像你有一个很长的屏幕一样，我们渲染页面是为了看看页面会在那里显示什么。 通常，这会在您用来触发无限滚动的任何 JavaScript 方法中触发一定数量的无限滚动。 无论最终加载到那里，这将是我们能够索引的内容。

[...] 根据您实现无限滚动的方式，我们可能会在索引中有更长的页面。可能不是我们拥有适合该页面的所有内容。因为根据您触发无限滚动的方式，您可能只是在加载下一页。然后我们可能会在一个无限滚动的页面上加载两个或三个这样的页面，但不是全部。 [...] 我建议使用[URL] 检查工具对其进行测试，然后看看 Google 会获得多少”。

在 Crawl Stats 报告中刷新和发现数据

33:32 “在 Search Console [ Crawl Stats ] 报告中，97% 的爬虫请求是刷新，只有 3% 是发现。如何优化这一点，让 Google 发现更多页面？”

John 回答说：“[...]对于 [...] 一个较老、更成熟的网站来说，进行大量刷新爬网是很正常的，因为我们会查看我们所知道的随着时间的推移而增长的页面数量。 并且进入的新页面的数量往往相当稳定。这是很常见的，特别是对于一个已经建立并且只是缓慢增长的网站，有这样的平衡，大部分的爬取都是在刷新爬取上，而不是在发现爬取上。

我认为，如果您有一个网站 [...]，您会收到很多新文章，而旧内容很快就会变得无关紧要，这会有所不同。 然后我认为我们会倾向于更多地关注发现。 […] 如果你有一个类似电子商务网站的东西，你只是在缓慢地增加你拥有的内容的数量，并且大部分旧内容仍然有效，[…] 刷新爬取的数量 [is] 可能会高一点”。

减少对网站的抓取

35:09 “在过去的几周里，我注意到抓取统计数据大幅下降，从每天 700 次下降到 50 次。 有没有办法从 Search Console 报告中了解导致这种下降的原因？可能是源页面加载吗？如何正确读取抓取请求细分？”

John 详细解释了 Google 如何抓取网站以及影响抓取的因素： “[...] 我们所做的抓取量涉及到一些因素。

[...] 我们试图弄清楚我们需要从网站抓取多少内容才能使搜索结果中的内容保持新鲜和有用。 这取决于了解您网站的质量，以及您网站上的情况如何变化。我们称之为抓取需求。

另一方面，我们从您的服务器、[...] 网站、 [...] 网络基础设施中看到的限制是我们可以在网站上抓取多少。 我们试图平衡这两者。

并且这些限制往往与两个主要方面相关：[…] 对请求的总体响应时间

到网站，以及 [...] 我们在抓取过程中看到的 [...] 服务器错误的数量。如果我们看到很多服务器错误，那么我们将减慢爬网速度 [...]。如果我们看到您的服务器变得越来越慢，那么我们也会减慢爬行速度 [...]。

速度方面的困难在于我们有两种 […] 不同的方式来看待速度。有时，当您查看抓取速度时，这会让人感到困惑。特别是对于抓取速度，我们只看，我们可以多快从您的服务器请求 URL？

您可能遇到的速度的另一个方面是围绕核心 Web Vitals的所有内容以及页面在浏览器中加载的速度。 它在浏览器中的速度往往与我们在网站上获取单个 URL 的速度没有直接关系。 因为在浏览器中，您必须处理 JavaScript、拉入所有这些外部文件、渲染内容、重新计算页面上所有元素的位置。这与仅获取该 URL 所需的时间不同。

[...] 如果您试图诊断抓取速度的变化，那么不要查看页面呈现需要多长时间。 [...] 看看从服务器获取该 URL 需要多长时间。

另一件事 […] 是 […]我们试图了解网站的托管位置[…]。 如果我们认识到一个网站正在将主机从一台服务器更改为另一台服务器——可能是不同的主机提供商，[...] 移动到 CDN，或更改 CDN [...]——那么我们的系统将自动返回到某些安全率，我们知道我们不会造成任何问题，然后一步一步地再次增加。

每当您对网站的托管进行更大的更改时，我都会假设抓取速度会下降。 然后在接下来的几周内，它将恢复到我们认为可以安全地在我们的网站上抓取的任何内容。这可能是您在这里看到的。

另一件事是，我们确定如何对网站和服务器进行分类的算法 [...] 也会不时更新。 [...] 即使您没有对托管基础设施进行任何更改，我们的算法也会尝试找出 [that] 该网站托管在该服务器上，而该服务器经常超载。我们在抓取本网站时应更加谨慎，以免造成任何问题。随着时间的推移，这种情况也会自动稳定下来，通常需要几个星期 […]。

[...] 在 [Google] Search Console 中，您可以指定抓取率[...]，这有助于我们了解您的网站有特定的设置 [...]，我们会尽量考虑这一点。 爬行速率设置的困难在于它是一个最大值设置。 这并不是表示我们应该抓取那么多，而是我们应该最多抓取您在此处指定的内容。通常，该设置在您需要减少抓取量时更有用，而不是在您想要增加抓取量时。

[...] 您还可以做的一件事是，在 Search Console 的帮助中心，我们有一个链接可以报告 Googlebot 的问题。如果您发现您网站的抓取超出了您的预期范围，那么您可以通过该链接报告 Googlebot 的问题 [...]”。

Google 如何识别网页所针对的国家/地区

56:25 “[...] 至于地理定位，除了使用 hreflang 之外，谷歌如何确定您的目标 [国家] [with] 这个特定网站或特定子目录？”

John 的回答是：“我们尝试按照我们可以识别的清晰模式对 URL 进行分组 [...]，例如，按子域或子目录。 如果你在一个路径的较高位置的子目录中有国家，那么我们说起来就容易多了，这条路径下的一切都是为了这个国家，这条路径下的一切都是为了另一个国家。

您还可以在 Search Console [...] 中验证各个路径，这对我们来说更容易一些。在实践中，我没有听到很多人说这有很大的不同。

[…] 我会尽量清楚 […] 哪个国家与各个 URL 相关，并在 URL 中提供清晰的路径。我认为最后有人提交了一个关于使用国家作为 URL 参数的问题。从理论上讲，你可以做到这一点[...]。对于我们的系统，识别哪些 URL 属于哪个国家/地区变得更加困难 [...]。如果您使用的是 hreflang，那么这不是问题，因为您可以在每个 URL 的基础上做到这一点”。

大量 URL 标记为已发现 - 当前未编入索引

58:25 “[...] 我们是一个巨大的电子商务网站，当我们检查我们的抓取报告时，我们发现 [已发现 - 当前未编入索引部分] [...]中有大量 URL 。这是否表明 [a] 问题 [on our site] [...]？”

约翰说：“我认为这取决于这些页面是什么以及您如何在您的网站中使用它们。 […] 我们在网络上发现了各种各样的 URL，其中许多 URL 不需要被抓取和编入索引，因为它们可能只是我们已经知道的 URL 的变体，或者 […] 一些随机论坛或抓取工具脚本已从您的网站复制 URL 并以损坏的方式包含它们。 [...]有很多这样的 URL 要么被抓取但未编入索引，要么被发现但未被抓取，这是很正常的，因为网络上有很多不同的 URL 来源。

[...] 尝试下载 [...] 其中的一个示例，以便您可以查看各个示例，并 [...] 对其中哪些 URL 是您关心的 URL 进行分类，哪些 [...] 是您可以忽略的。

[...] 您确实关心的那些，我会尝试找出您可以做些什么来更好地将这些与您的网站联系起来，例如内部链接。 因此，如果这些是未找到的单个产品或类别，请尝试以系统的方式弄清楚您可以做什么，以确保所有这些 URL 之间能够更好地链接。 [...] 特别是对于较大的电子商务网站，它可能会变得很棘手，因为您不能一直单独查看每个 URL。

但有时，你可以在你所说的地方做一些技巧：任何属于第一级类别的东西，我都会从我的主页链接到它。而且我确保我的第一级类别最多 [...] 可能有 100 个项目或 200 个项目，这样就你让谷歌抓取和索引的内容而言，你有一点强制功能。基于此，您可以更系统地构建它。

[...] 在某种程度上，我只能接受 Google 无法抓取和索引所有内容。 [...] 例如，如果您发现 [...] 单个产品没有被抓取和编入索引，请确保至少这些产品的类别页面被抓取和编入索引。 因为这样，人们仍然可以在您的网站上找到这些个别产品的一些内容 [...]。

看看你是否可以自己爬取你的网站，这样你就可以更直接地了解如何爬取像你这样的网站。那里有各种爬行工具。 [...] 通过自己爬取网站，您可以看到这些 URL 中的哪些链接离主页很远，哪些链接离您的主页更近。在此基础上，有时您可以稍微调整网站的结构，以确保与主页的距离相当接近或相当稳定”。