SEO 办公时间,2022 年 7 月 1 日

已发表: 2022-07-19

这是2022 年 7 月 1 日Google SEO Office HoursJohn Mueller的最有趣问题和答案的摘要

内容隐藏
1 PageSpeed Insights 或 Google Search Console ‒ 哪个更准确?
2为什么 Googlebot 难以为基于 JavaScript 的页面编制索引?
3链接到 HTTP 页面是否会影响您网站的 SEO?
4你应该删除你的拒绝文件吗?
5用 robots.txt 或 robots 元标记阻止抓取更好吗?
6你可以在多个站点地图文件中放置相同的 URL 吗?
7如何防止嵌入的视频页面被索引?

PageSpeed Insights 或 Google Search Console ‒ 哪个更准确?

0:44 “当我在我的网站上查看我的 PageSpeed Insights 分数时,我看到了一个简单的数字。 为什么这与我在 Search Console 和 Core Web Vitals 报告中看到的不符? 这些数字中哪一个是正确的?”

根据 John 的说法:“[...]在速度方面没有正确的数字 ‒在了解您的网站如何为您的用户执行时。 在 PageSpeed Insights 中,默认情况下,我相信我们会显示一个从 0 到 100 的分数,这是基于许多假设,我们假设不同的事情对用户来说有点快或慢一点。 在此基础上,我们计算一个分数。

在 Search Console 中,我们有Core Web Vitals 信息,它基于速度、响应能力和交互性三个数字。 当然,这些数字略有不同,因为它是三个数字,而不仅仅是一个数字。 但是,这些数字的确定方式也有很大的不同。 即,所谓的现场数据和实验室数据之间存在差异。

现场数据是用户访问您的网站时看到的内容。 这就是我们在 Search Console 中使用的。 这也是我们用于搜索的内容。 而实验室数据是您网站的理论视图,我们的系统在他们认为的地方有某些假设,好吧,普通用户可能是这样的,使用这种设备,并且可能使用这种连接。 基于这些假设,我们将估计这些数字对于普通用户来说可能是多少。 你可以想象这些估计永远不会 100% 正确。

同样,用户看到的数据也会随着时间的推移而变化,其中一些用户可能拥有非常快速的连接或快速的设备,并且在他们的网站上或当他们访问您的网站时一切都进行得很快,而其他用户可能不会有那个。 正因为如此,这种变化总是会导致不同的数字。

我们的建议通常是使用字段数据,即您会在 Search Console 中看到的数据,作为了解我们网站当前情况的一种方式,然后使用实验室数据,即您可以运行的个别测试直接自己,优化您的网站并尝试改进。 当您对通过新版本网站获得的实验室数据感到非常满意时,随着时间的推移,您可以收集自动发生的现场数据,并仔细检查用户是否认为它更快或响应速度也更快。

因此,简而言之,当涉及到任何这些指标时,再一次没有正确的数字。 […] 但是,相反,有不同的假设和不同的数据收集方式,而且每一种都略有不同。”

为什么 Googlebot 难以为基于 JavaScript 的页面编制索引?

4:19 “我们有一些使用 Next.js 的客户页面,没有 robots.txt 或站点地图文件。 理论上,Googlebot 可以访问所有这些页面,但为什么只有主页被索引? Search Console 中没有错误或警告。 为什么 Googlebot 找不到其他页面?”

John 说,“[...] Next.js 是一个 JavaScript 框架,这意味着整个页面都是用 JavaScript 生成的。 但是,对于所有这些问题,例如,为什么 Google 不将所有内容都编入索引,首先要说Googlebot 永远不会索引整个网站上的所有内容,这一点很重要。 我不认为谷歌会关闭并完全索引所有内容的任何非平凡大小的网站都会发生这种情况。 从实际的角度来看,不可能为整个网络上的所有内容编制索引。 因此,理想情况是所有内容都已编入索引的假设——我将把它放在一边,并说您希望 Googlebot 专注于重要页面。

不过,另一件事变得更清楚了,我认为,当这个人在 Twitter 上联系我并向我提供有关他们网站的更多信息时,网站生成指向其他页面的链接的方式是以谷歌无法接受的方式。 因此,特别是使用 JavaScript,您可以获取 HTML 页面上的任何元素,并说,如果有人点击它,则执行这段 JavaScript。 例如,那段 JavaScript 可以导航到不同的页面。 而且Googlebot 不会点击所有元素来查看发生了什么,而是我们会去寻找正常的 HTML 链接,这是您链接到网站上各个页面的传统、正常的方式。

而且,使用这个框架,它不会生成这些普通的 HTML 链接。 因此,我们无法认识到还有更多要抓取的内容,更多要查看的页面。 这是您可以通过实现 JavaScript 站点的方式来解决的问题。 我们在搜索开发人员文档网站上有大量关于 JavaScript 和 SEO 的信息,特别是关于链接主题的信息,因为它时不时出现。 有很多创造性的方法可以创建链接,而 Googlebot 需要找到这些 HTML 链接才能使其工作。 […]”

除了 Google 官方文档,请查看我们博客上的 JavaScript SEO 终极指南。

链接到 HTTP 页面是否会影响您网站的 SEO?

7:35 “如果我的页面链接到外部不安全的网站,是否会对我的 SEO 得分产生负面影响? 所以在 HTTP 上,而不是 HTTPS。”

约翰说,“首先,我们没有 SEO 分数的概念,所以你不必担心 SEO 分数。

但是,无论如何,我理解的问题是:如果我链接到 HTTP 页面而不是 HTTPS 页面会很糟糕。 而且,从我们的角度来看,这完全没问题。 如果这些页面在 HTTP 上,那么这就是您要链接的内容。 这就是用户期望找到的。 没有什么反对链接到这样的网站。 避免链接到 HTTP 页面对您的网站没有任何不利之处,因为它们很旧或很硬,而且不像 HTTPS 那样酷。 我不会担心这个。”

你应该删除你的拒绝文件吗?

10:16 “在过去的 15 年里,我总共拒绝了超过 11,000 个链接。 […] 我拒绝的链接可能来自被黑网站或来自无意义的自动生成内容。 由于谷歌现在声称他们有更好的工具可以不将这些类型的黑客或垃圾链接纳入他们的算法,我应该删除我的拒绝文件吗? 删除它有什么风险或不利之处吗?”

约翰回答说:“[...] 拒绝链接始终是那些棘手的话题之一,因为感觉 Google 可能没有告诉你完整的信息。

但是,从我们的角度来看,[...] 我们确实努力避免将这些链接考虑在内。 我们这样做是因为我们知道 Disavow 链接工具在某种程度上是一种利基工具,SEO 也知道它,但运营网站的普通人对此一无所知。 您提到的所有这些链接都是任何网站多年来获得的那种链接。 我们的系统明白,这些不是你试图做的事情来玩弄我们的算法。

因此,从这个角度来看,如果您确定在这些链接方面没有任何您必须解决的手动操作,我会删除拒绝文件并 [...] 将所有这些放在一边。 我个人会做的一件事是下载并制作副本,以便您记录删除的内容。 但是,否则,如果您确定这些只是来自 Internet 的正常、硬皮的东西,我会删除它并继续前进。 当涉及到网站时,除了否认这些发生在网络上任何网站上的随机事情之外,还有更多的时间可以花在网站上。”

用 robots.txt 或 robots 元标记阻止抓取会更好吗?

14:19 “哪个更好:使用robots.txt阻止或使用页面上的机器人元标记? 我们如何最好地防止爬行?”

约翰:“[……]我们最近也做了一个关于这个的播客节目 所以我会检查一下。 […]

在实践中,这里有一个细微的区别,如果您从事 SEO 并且您使用过搜索引擎,那么您可能已经理解了这一点。 但对于该地区的新手来说,有时不清楚所有这些线路的确切位置。

使用您在问题中提到的第一个 robots.txt,您可以阻止抓取。 因此,您甚至可以阻止 Googlebot 查看您的网页。 借助 robots 元标记,当 Googlebot 查看您的网页并看到该机器人元标记时,您可以执行诸如阻止索引之类的操作。 在实践中,这两种方法都会导致您的页面没有出现在搜索结果中,但它们略有不同。

所以如果我们不能爬行,那么我们就不知道我们错过了什么。 我们可能会说,实际上,有很多对这个页面的引用。 也许它对某些东西有用。 我们不知道。 然后该 URL 可能会出现在搜索结果中而没有任何内容,因为我们无法查看它。 而对于 robots 元标记,如果我们可以查看页面,那么我们可以查看元标记并查看其中是否有 noindex,例如。 然后我们停止索引该页面,然后我们将其完全从搜索结果中删除。

因此,如果您想阻止抓取,那么 robots.txt 绝对是您的最佳选择。 如果您不希望该页面出现在搜索结果中,那么我会选择您更容易实现的那个。 在某些网站上,设置一个复选框表示我不希望在搜索中找到此页面会更容易,然后它会添加一个 noindex 元标记。 在其他人身上,也许编辑 robots.txt 文件更容易。 [这]取决于你在那里拥有什么。”

您可以在多个站点地图文件中放置相同的 URL 吗?

16:40在您的 XML 站点地图中包含具有不同属性的重复 URL 是否有任何负面影响? 例如,一个站点地图中的一个 URL 带有 hreflang 注释,而另一个站点地图中的相同 URL 没有该注释。”

约翰说:“[……]从我们的角度来看,这完全没问题。 […] 这种情况时不时发生。 有些人在站点地图文件中有hreflang注释,专门分开,然后他们也有一个普通的站点地图文件。 那里有一些重叠。

从我们的角度来看,我们会尽可能处理这些站点地图文件,并将所有这些信息都考虑在内。 在多个站点地图文件中使用相同的 URL 没有缺点。  

我唯一要注意的是,这些站点地图文件中没有相互冲突的信息。 因此,例如,如果使用 hreflang 注释,您说这个页面是针对德国的,然后在另一个站点地图文件上,您会说,实际上这个页面也是针对法国的,[…] 然后我们的系统可能就像,嗯,这里发生了什么? 我们不知道如何处理这种混合注释。 然后我们可能会选择其中一个。

同样,如果您说此页面上次更改是 20 年前 [...],而在另一个站点地图文件中,您会说,实际上,是五分钟前。 然后我们的系统可能会说,你们中的一个人是错的。 我们不知道是哪一个。 也许我们会遵循其中一个。 也许我们会完全忽略最后一次修改日期。 所以这是要注意的事情。

但除此之外,如果它只是提到了多个站点地图文件,并且信息要么是一致的,要么是一起工作的,因为可能一个有最后修改日期,另一个有 hreflang 注释,那很好。”

如何防止嵌入的视频页面被索引?

19:00 “我负责一个视频回放平台,我们的嵌入有时是单独索引的。 我们怎样才能防止这种情况发生?”

John 回答说:“[...] 我查看了该网站,这些 iframe 包含一个简化的 HTML 页面,其中嵌入了视频播放器。

从技术的角度来看,如果一个页面有 iframe 内容,那么我们就会看到这两个 HTML 页面。 我们的系统有可能同时索引了这两个 HTML 页面,因为它们是单独的 HTML 页面。 通常,一个包含在另一个中,但理论上它们也可以独立存在。

有一种方法可以防止这种情况发生,这是一个相当新的与 robots 元标记的组合,您可以使用indexifembedded robots 元标记noindex robots 元标记

在嵌入式版本上,直接在其中包含视频的 HTML 文件,您将添加 noindex 和 indexifembedded 机器人元标记的组合。 这意味着如果我们单独找到该页面,我们会看到有一个 noindex [标签]。 我们不必为此编制索引。

但是使用 indexifembedded,它告诉我们 [...] 如果我们在一般网站中找到嵌入视频的页面,那么我们可以索引该视频内容,这意味着单个 HTML 页面不会被索引。 但是带有嵌入和视频信息的 HTML 页面会被正常索引。 这就是我将在那里使用的设置。 这是一个相当新的机器人元标记,所以不是每个人都需要它。 因为这种 iframe 内容或嵌入内容的组合很少见。 但是,对于某些网站来说,这样做是有意义的。”