SEO 办公时间,2022 年 6 月 3 日

已发表: 2022-07-04

这是2022 年 6 月 3 日Google SEO Office HoursJohn Mueller的最有趣问题和答案的摘要

内容隐藏
1我可以在一个页面上使用两个 HTTP 结果代码吗?
2如果我的网站在我的主要国家/地区已经很快,使用 CDN 会提高排名吗?
3我应该禁止 API 请求以减少抓取吗?
4我应该在内部链接上使用 rel=”nofollow” 吗?
5有没有办法强制附加链接显示?
6我们的网站使用 iframe 嵌入 PDF,我们应该 OCR 文本吗?
7 Google 是否会抓取结构化数据标记中的 URL?

我可以在一个页面上使用两个 HTTP 结果代码吗?

1:22 “[…] 理论上,一个页面上可能有两个不同的 HTTP 结果代码,但 Google 会如何处理这两个代码? 谷歌甚至会看到它们吗? 如果是,谷歌会做什么? 例如,一个 503 加上一个 302。”

John 的回答是:“[...] 使用 HTTP 结果代码,您可以包含许多不同的内容。 Google 将查看第一个 HTTP 结果代码并从本质上对其进行处理。

如果重定向到某个最终页面,理论上你仍然可以有两个或更多的 HTTP 结果代码。 例如,您可以从一个页面重定向到另一个页面。 这是一个结果代码。 然后在另一个页面上,您可以提供不同的结果代码。 所以这可能是一个 301 重定向到一个 404 页面 […]。 从我们的角度来看,在那些我们可以按照重定向获得最终结果的连锁情况下,我们基本上只关注最终结果。

如果最终结果有内容,那么我们可以将其用于规范化。 如果最终结果是一个错误页面,那么它就是一个错误页面。 这对我们来说也很好。”

如果我的网站在我的主要国家/地区已经很快,使用 CDN 会提高排名吗?

2:50 “[…] 我们的大部分流量来自特定国家。 我们将我们的网站托管在位于该国家/地区的服务器上。 您是否建议将我们的整个网站置于 CDN 之后,以提高全球用户的页面速度,还是我们不需要这样做?”

约翰回答说:“我认为它对谷歌的搜索引擎优化完全没有影响。

我可以想象的唯一可能发生的事情是用户最终看到的。 [...] 如果您的大多数用户已经看到一个非常快的网站,因为您的服务器位于那里,那么您 [...] 做的是正确的事情。 但是,当然,如果其他位置的用户看到的结果非常缓慢,因为与您所在国家/地区的连接可能不是那么好,那么您可能有机会改进它。

[...] 如果您可以做一些事情来改善您网站的全球性,我认为这是一个好主意。 我认为这并不重要 […]。 但是,您可以做一些事情来 [...] 将您的网站扩展到您当前的国家/地区。

也许我应该澄清一件事,如果 Google 的抓取速度真的非常慢,那么这当然会影响我们从网站上抓取和索引的程度 [...]。 对于任何不是数百万页大的网站[...],我还没有真正认为这是一个问题。

您可以仔细检查 Google 在 Search Console 中的抓取速度以及抓取统计信息。 如果这看起来合理,即使速度不是很快,我也不会真的担心。”

我应该禁止 API 请求以减少抓取吗?

5:20 “[...] 我们的网站目前将大约 20% 的抓取预算用于 API 子域,另外 20% 用于视频的图像缩略图。 这些子域都没有属于我们的 SEO 策略的内容。 我们是否应该禁止这些子域抓取,或者如何发现或使用 API 端点?”

正如 John 所说,“[...] 在许多情况下, API 端点最终会被网站上的 JavaScript 使用,我们将呈现您的页面。 如果他们访问您网站上的 API,那么我们将尝试从该 API 加载内容并将其用于呈现页面。

并且根据你的 API 的设置方式和 JavaScript 的设置方式,我们可能很难缓存这些 API 结果,这意味着我们可能会抓取大量这些 API 请求以尝试获取渲染版本您的页面,以便我们可以将其用于索引。 所以这通常是发现它的地方。 这就是您可以通过确保 API 结果可以被缓存、当您将 JavaScript 用于 API [...] 时不会将任何时间戳注入 URL [...] 来提供帮助的事情。

如果您不关心这些 API 端点返回的内容,那么您当然可以阻止整个子域被 robots.txt 文件抓取。 这基本上会阻止所有这些 API 请求的发生。

[...] 您首先需要弄清楚,这些 API 结果 [...] 是否是我希望从 Google 索引的 [...] 关键内容的一部分? 如果是这样,那么您可能不应该阻止爬行。 但是,如果 [...] 它是 [...] 生成的东西 [...] 对您的页面 [...] 并不重要,那么可能值得仔细检查它们被阻止时的样子。

您可以仔细检查的一种方法是,您是否可以创建一个单独的测试页面,该页面不调用 API 或使用损坏的 URL 作为 API 端点。 [...] 你可以看到这个页面在我的浏览器中是如何实际呈现的? 它如何为 Google 呈现?”

我应该在内部链接上使用 rel=”nofollow” 吗?

8:05 “在内部链接上使用 nofollow 属性以避免不必要的爬虫请求我们不希望被爬取或索引的 URL 是否合适?”

以下是约翰的回应:“[...] 我认为,在大多数情况下,在内部链接上使用 nofollow 几乎没有意义。 但如果这是你想做的事情,那就去做吧。

在大多数情况下,我会尝试使用 rel=canonical来指向您确实想要编入索引的 URL,或者使用 robots.txt来处理您确实不想抓取的内容。

试着弄清楚,它是否更像是一个微妙的东西 [...] 你更喜欢索引然后使用 rel=canonical ? 或者是你所说的——实际上,当 Googlebot 访问这些 URL 时,它会导致我的服务器出现问题。 它会导致很大的负载。 它让一切变得非常缓慢。 它很贵,或者你有什么。

对于这些情况,我只会禁止抓取这些 URL。 […] 显然,对于 rel=canonical,我们首先必须爬取该页面才能看到 rel=canonical。 但随着时间的推移,我们将专注于您定义的规范。 我们将把它主要用于抓取和索引。”

有没有办法强制附加链接显示?

16:02 “是否有任何策略可以将所需页面作为站点链接显示在 Google 搜索结果中?”

John 澄清说:“[...]没有可用于强制显示站点链接的元标记或结构化数据

[...] 我们的系统试图找出在用户查看此网页时 [...] 与什么相关或相关的内容 [...]? […] 我们的建议本质上是要有一个良好的网站结构,有清晰的内部链接,以便我们很容易识别哪些页面与这些页面相关,并有清晰的标题,我们可以使用和 […] 显示为一个网站链接。

[...] 并不是说​​所有这些都会像那样显示。 但这有助于我们找出相关的内容。 如果我们确实认为显示站点链接是有意义的,那么我们根据这些信息实际选择一个链接会容易得多。”

我们的网站使用 iframe 嵌入 PDF,我们应该 OCR 文本吗?

17:14 “我们的网站使用 iframe 和脚本将 PDF 文件嵌入到我们的页面和网站中。 将 PDF 的 OCR 文本粘贴到文档的 HTML 中以进行 SEO 是否有任何优势,或者 Google 是否会简单地解析具有相同权重和相关性的 PDF 内容以索引内容?”

John 回应说:“[...] 听起来您想要获取 PDF 的文本并 [...] 将其隐藏在 HTML 中以用于 SEO 目的。 我绝对不建议这样做。 如果您希望内容可索引,则使其在页面上可见。

[...]我们确实尝试将文本从 PDF 中取出,并为 PDF 本身编制索引。 从实际的角度来看,PDF 发生的事情是第一步,我们将其转换为 HTML 页面,并尝试像 HTML 页面一样对其进行索引。 […] 你正在做的是 […] iframe 一个间接的 HTML 页面。 当涉及到 iframe 时,我们可以将这些内容考虑在内,以便在主页中进行索引。 但也可能发生我们单独索引 PDF 的情况。 [...] 我会把这个问题转过来,把它描述成你想要发生的事情?

如果您希望您的普通网页使用 PDF 文件的内容进行索引,那么请使其内容在 HTML 页面上立即可见。 因此,不要将 PDF 作为主要内容嵌入,而是将 HTML 内容作为主要内容并链接到 PDF 文件。

然后有一个问题,您是否希望这些 PDF 单独编入索引? 有时您确实希望将 PDF 单独编入索引。 而且,如果您确实希望将它们单独编入索引,那么链接到它们就很棒。

如果您不想将它们单独编入索引,那么使用 robots.txt 来阻止它们的索引也是可以的。 你也可以使用 noindex [? x-robots ?] HTTP 标头。 它有点复杂,因为如果你想让这些 PDF 文件在 iframe 中可用,但实际上没有被索引,你必须将它作为 PDF 文件的标题。”

Google 会抓取结构化数据标记中的网址吗?

23:24 “Google 是抓取结构化数据标记中的 URL,还是只存储数据?”

John 解释说:“在大多数情况下,当我们查看 HTML 页面时,如果我们看到一些看起来像链接的东西,我们可能也会尝试使用该 URL。 [...] 如果我们在 JavaScript 中找到一个 URL,我们可以尝试选择它并尝试使用它。 如果我们在网站的文本文件中找到链接,我们可以尝试抓取并使用它。 但这并不是一个真正的正常链接。

[...]如果您希望 Google 开始并抓取该 URL,请确保该 URL 有一个自然的 HTML 链接,并且带有清晰的锚文本,您可以提供有关目标页面的一些信息。

如果您不希望 Google 抓取该特定网址,则可以使用 robots.txt 或在该页面上阻止它,使用 rel=canonical 指向您的首选版本,诸如此类。 [...] 我不会盲目地假设仅仅因为它在结构化数据中就不会被发现,我也不会盲目地假设仅仅因为它在结构化数据中就会被发现。

[...] 相反,我会专注于您希望在那里发生的事情。 如果您想将其视为链接,则将其设为链接。 如果您不想对其进行爬网或编入索引,请阻止爬网或编入索引 [...]。”