SEO 办公时间，2022 年 6 月 3 日

已发表: 2022-07-04

这是2022 年 6 月 3 日Google SEO Office Hours与John Mueller的最有趣问题和答案的摘要。

内容隐藏

1我可以在一个页面上使用两个 HTTP 结果代码吗？

2如果我的网站在我的主要国家/地区已经很快，使用 CDN 会提高排名吗？

3我应该禁止 API 请求以减少抓取吗？

4我应该在内部链接上使用 rel=”nofollow” 吗？

5有没有办法强制附加链接显示？

6我们的网站使用 iframe 嵌入 PDF，我们应该 OCR 文本吗？

7 Google 是否会抓取结构化数据标记中的 URL？

我可以在一个页面上使用两个 HTTP 结果代码吗？

1:22 “[…] 理论上，一个页面上可能有两个不同的 HTTP 结果代码，但 Google 会如何处理这两个代码？谷歌甚至会看到它们吗？如果是，谷歌会做什么？例如，一个 503 加上一个 302。”

John 的回答是：“[...] 使用 HTTP 结果代码，您可以包含许多不同的内容。 Google 将查看第一个 HTTP 结果代码并从本质上对其进行处理。

如果重定向到某个最终页面，理论上你仍然可以有两个或更多的 HTTP 结果代码。 例如，您可以从一个页面重定向到另一个页面。这是一个结果代码。然后在另一个页面上，您可以提供不同的结果代码。所以这可能是一个 301 重定向到一个 404 页面 […]。从我们的角度来看，在那些我们可以按照重定向获得最终结果的连锁情况下，我们基本上只关注最终结果。

如果最终结果有内容，那么我们可以将其用于规范化。如果最终结果是一个错误页面，那么它就是一个错误页面。这对我们来说也很好。”

如果我的网站在我的主要国家/地区已经很快，使用 CDN 会提高排名吗？

2:50 “[…] 我们的大部分流量来自特定国家。我们将我们的网站托管在位于该国家/地区的服务器上。您是否建议将我们的整个网站置于 CDN 之后，以提高全球用户的页面速度，还是我们不需要这样做？”

约翰回答说：“我认为它对谷歌的搜索引擎优化完全没有影响。

我可以想象的唯一可能发生的事情是用户最终看到的。 [...] 如果您的大多数用户已经看到一个非常快的网站，因为您的服务器位于那里，那么您 [...] 做的是正确的事情。但是，当然，如果其他位置的用户看到的结果非常缓慢，因为与您所在国家/地区的连接可能不是那么好，那么您可能有机会改进它。

[...] 如果您可以做一些事情来改善您网站的全球性，我认为这是一个好主意。我认为这并不重要 […]。但是，您可以做一些事情来 [...] 将您的网站扩展到您当前的国家/地区。

也许我应该澄清一件事，如果 Google 的抓取速度真的非常慢，那么这当然会影响我们从网站上抓取和索引的程度 [...]。对于任何不是数百万页大的网站[...]，我还没有真正认为这是一个问题。

您可以仔细检查 Google 在 Search Console 中的抓取速度以及抓取统计信息。如果这看起来合理，即使速度不是很快，我也不会真的担心。”

我应该禁止 API 请求以减少抓取吗？

5:20 “[...] 我们的网站目前将大约 20% 的抓取预算用于 API 子域，另外 20% 用于视频的图像缩略图。这些子域都没有属于我们的 SEO 策略的内容。我们是否应该禁止这些子域抓取，或者如何发现或使用 API 端点？”

正如 John 所说，“[...] 在许多情况下， API 端点最终会被网站上的 JavaScript 使用，我们将呈现您的页面。 如果他们访问您网站上的 API，那么我们将尝试从该 API 加载内容并将其用于呈现页面。

并且根据你的 API 的设置方式和 JavaScript 的设置方式，我们可能很难缓存这些 API 结果，这意味着我们可能会抓取大量这些 API 请求以尝试获取渲染版本您的页面，以便我们可以将其用于索引。所以这通常是发现它的地方。这就是您可以通过确保 API 结果可以被缓存、当您将 JavaScript 用于 API [...] 时不会将任何时间戳注入 URL [...] 来提供帮助的事情。

如果您不关心这些 API 端点返回的内容，那么您当然可以阻止整个子域被 robots.txt 文件抓取。这基本上会阻止所有这些 API 请求的发生。

[...] 您首先需要弄清楚，这些 API 结果 [...] 是否是我希望从 Google 索引的 [...] 关键内容的一部分？如果是这样，那么您可能不应该阻止爬行。但是，如果 [...] 它是 [...] 生成的东西 [...] 对您的页面 [...] 并不重要，那么可能值得仔细检查它们被阻止时的样子。

您可以仔细检查的一种方法是，您是否可以创建一个单独的测试页面，该页面不调用 API 或使用损坏的 URL 作为 API 端点。 [...] 你可以看到这个页面在我的浏览器中是如何实际呈现的？它如何为 Google 呈现？”

我应该在内部链接上使用 rel=”nofollow” 吗？

8:05 “在内部链接上使用 nofollow 属性以避免不必要的爬虫请求我们不希望被爬取或索引的 URL 是否合适？”

以下是约翰的回应：“[...] 我认为，在大多数情况下，在内部链接上使用 nofollow 几乎没有意义。 但如果这是你想做的事情，那就去做吧。

在大多数情况下，我会尝试使用 rel=canonical来指向您确实想要编入索引的 URL，或者使用 robots.txt来处理您确实不想抓取的内容。

试着弄清楚，它是否更像是一个微妙的东西 [...] 你更喜欢索引然后使用 rel=canonical ？或者是你所说的——实际上，当 Googlebot 访问这些 URL 时，它会导致我的服务器出现问题。它会导致很大的负载。它让一切变得非常缓慢。它很贵，或者你有什么。

对于这些情况，我只会禁止抓取这些 URL。 […] 显然，对于 rel=canonical，我们首先必须爬取该页面才能看到 rel=canonical。但随着时间的推移，我们将专注于您定义的规范。我们将把它主要用于抓取和索引。”

有没有办法强制附加链接显示？

16:02 “是否有任何策略可以将所需页面作为站点链接显示在 Google 搜索结果中？”

John 澄清说：“[...]没有可用于强制显示站点链接的元标记或结构化数据。

[...] 我们的系统试图找出在用户查看此网页时 [...] 与什么相关或相关的内容 [...]？ […] 我们的建议本质上是要有一个良好的网站结构，有清晰的内部链接，以便我们很容易识别哪些页面与这些页面相关，并有清晰的标题，我们可以使用和 […] 显示为一个网站链接。

[...] 并不是说所有这些都会像那样显示。但这有助于我们找出相关的内容。如果我们确实认为显示站点链接是有意义的，那么我们根据这些信息实际选择一个链接会容易得多。”

我们的网站使用 iframe 嵌入 PDF，我们应该 OCR 文本吗？

17:14 “我们的网站使用 iframe 和脚本将 PDF 文件嵌入到我们的页面和网站中。将 PDF 的 OCR 文本粘贴到文档的 HTML 中以进行 SEO 是否有任何优势，或者 Google 是否会简单地解析具有相同权重和相关性的 PDF 内容以索引内容？”

John 回应说：“[...] 听起来您想要获取 PDF 的文本并 [...] 将其隐藏在 HTML 中以用于 SEO 目的。我绝对不建议这样做。如果您希望内容可索引，则使其在页面上可见。

[...]我们确实尝试将文本从 PDF 中取出，并为 PDF 本身编制索引。 从实际的角度来看，PDF 发生的事情是第一步，我们将其转换为 HTML 页面，并尝试像 HTML 页面一样对其进行索引。 […] 你正在做的是 […] iframe 一个间接的 HTML 页面。当涉及到 iframe 时，我们可以将这些内容考虑在内，以便在主页中进行索引。但也可能发生我们单独索引 PDF 的情况。 [...] 我会把这个问题转过来，把它描述成你想要发生的事情？

如果您希望您的普通网页使用 PDF 文件的内容进行索引，那么请使其内容在 HTML 页面上立即可见。因此，不要将 PDF 作为主要内容嵌入，而是将 HTML 内容作为主要内容并链接到 PDF 文件。

然后有一个问题，您是否希望这些 PDF 单独编入索引？有时您确实希望将 PDF 单独编入索引。而且，如果您确实希望将它们单独编入索引，那么链接到它们就很棒。

如果您不想将它们单独编入索引，那么使用 robots.txt 来阻止它们的索引也是可以的。你也可以使用 noindex [? x-robots ?] HTTP 标头。它有点复杂，因为如果你想让这些 PDF 文件在 iframe 中可用，但实际上没有被索引，你必须将它作为 PDF 文件的标题。”

Google 会抓取结构化数据标记中的网址吗？

23:24 “Google 是抓取结构化数据标记中的 URL，还是只存储数据？”

John 解释说：“在大多数情况下，当我们查看 HTML 页面时，如果我们看到一些看起来像链接的东西，我们可能也会尝试使用该 URL。 [...] 如果我们在 JavaScript 中找到一个 URL，我们可以尝试选择它并尝试使用它。如果我们在网站的文本文件中找到链接，我们可以尝试抓取并使用它。但这并不是一个真正的正常链接。

[...]如果您希望 Google 开始并抓取该 URL，请确保该 URL 有一个自然的 HTML 链接，并且带有清晰的锚文本，您可以提供有关目标页面的一些信息。

如果您不希望 Google 抓取该特定网址，则可以使用 robots.txt 或在该页面上阻止它，使用 rel=canonical 指向您的首选版本，诸如此类。 [...] 我不会盲目地假设仅仅因为它在结构化数据中就不会被发现，我也不会盲目地假设仅仅因为它在结构化数据中就会被发现。

[...] 相反，我会专注于您希望在那里发生的事情。如果您想将其视为链接，则将其设为链接。如果您不想对其进行爬网或编入索引，请阻止爬网或编入索引 [...]。”