什么是 SEO 中的软 404?
已发表: 2022-02-17Soft 404 不是官方的 HTTP 状态代码,而是一种高级算法,可以帮助Google 检测页面是否不存在(或几乎没有内容) ,即使 HTTP 状态代码没有表明它也是如此。
但是,该算法并不完美,Google 在对页面进行分类时可能会出错。
无论软 404 的原因是什么,它们都会对您的网站产生负面影响并降低您在自然搜索中的知名度。
从本文中,您将了解软 404 对您的网站的影响、可能导致它们的原因以及您可以采取哪些措施来修复它们。
什么是软404?
服务器通过 HTTP 状态代码与客户端(例如,浏览器或搜索引擎机器人)进行通信。
如果页面请求成功,服务器返回 200 HTTP 状态码。 如果页面丢失,服务器会以 404(未找到)状态响应。
当用户请求一个不存在的页面时,他们会在浏览器中看到一条消息,指出出现了问题。 但是,浏览器显示的消息并不总是与 HTTP 状态代码相对应。
这就是软 404 发挥作用的地方。
Soft 404 是谷歌在页面看起来不存在时给出的一个标签,同时它返回一个成功的 200 HTTP 状态码。
如果谷歌决定一个页面是软 404,它会减慢它的抓取速度。
如果我们将其 [a page] 视为软 404,它将类似于 404,并且我们会减慢对该特定 URL 的抓取,因为这里没有任何内容——为什么我们必须每天抓取它?资料来源:约翰·穆勒
从搜索引擎的角度来看,检测软 404 是必不可少的,原因有两个:
- 谷歌资源有限。 网络无限大,根本不可能爬取所有页面。 这就是为什么谷歌需要优先考虑并选择哪些页面值得抓取。 省略软 404 可以让它专注于更有价值的页面,从而提高其抓取效率。
- 谷歌希望向用户展示高质量的页面。 如果 Google 怀疑某个页面不存在,那么很明显没有人想找到它,并且它不应该出现在搜索结果页面上。
Soft 404 如何影响您的网站
您网站的后果可能因 Google 归类为软 404 的页面类型而异。
如果 Google 是正确的并且该页面确实不存在,那么主要后果就是浪费您的抓取预算。
您的抓取预算表示 Google 可以并希望在您的网站上抓取的页面数量。 例如,如果您有 100,000 个页面,并且您的抓取预算允许抓取 50,000 个,那么确保将预算用于有价值的页面至关重要。 如果 Google 将您的抓取预算浪费在抓取软 404 上,那么对您来说最重要并为您带来流量的页面可能就不够用了。
硬币的另一面是当谷歌在分配状态时出错并认为有价值的页面是软404。在这种情况下,页面不会被索引,也不会带来自然流量。
如何检测软 404?
您可以在 Google Search Console 的Index Coverage 报告中查看 Google 将哪些页面报告为软 404。
通过单击侧边栏上的“覆盖范围”选项访问报告。

如果 Google 认为某个页面是软 404,它可以为其分配以下两种状态之一:
- 软 404(排除类别),或
- 提交的 URL 似乎是软 404(错误类别)。
这些状态之间的唯一区别是 Google 发现 URL 的方式。
在“提交的 URL 似乎是软 404”状态的情况下,谷歌在你的站点地图中找到了它(由网站所有者创建的文本文件,应该只列出你想要被索引的页面)。 同时,在“软 404”状态的情况下,谷歌自己找到了这个 URL。
您可以通过单击这些状态中的任何一个来查看报告软 404 的各个 URL 的列表。 此数据可用于导出,但有 1,000 个 URL 限制。 如果您想导出更多并拥有多个站点地图,您可以分别下载每个站点地图的 URL。
索引覆盖率报告不是您可以查看 URL 状态的唯一位置。
在Google Search Console 中的URL 检查工具中,您可以仔细检查各个 URL。 如果您想检查多个 URL,您可以使用URL Inspection API并一次检查多达 2,000 个 URL。
如果您发现索引覆盖率报告和 URL 检查工具中的状态存在差异,则可能只是索引覆盖率报告出现延迟。 在这种情况下,请相信 URL 检查工具,因为它会显示更新的数据。
这是因为索引覆盖率报告数据的刷新速度与 URL 检查不同(且更慢)。 URL 检查中显示的结果较新,当它们与索引覆盖率报告冲突时应被视为权威。 (2/4)
— Google 搜索中心 (@googlesearchc) 2021 年 10 月 11 日
移动设备与桌面设备上的软 404 检测
2021 年,谷歌更新了它如何检测手机和桌面设备上的软 404 。
事实证明,移动版和桌面版的状态分配可能不同。 但是,由于 Google Search Console 会根据移动版本报告状态,因此如果只有桌面版本被标记为软 404,它不会向您显示。
本质上,发生的情况是有时我们在桌面上看到的页面看起来像 404 页面,所以我们说这是桌面上的软 404,我们不需要对其进行索引。 在移动设备上,它看起来像一个普通页面,所以我们实际上会在那里对其进行索引。[...]在 Search Console 中,我们确实显示了软 404,但我们在移动版本中显示了它。 因此,如果在移动版上一切正常,那么在 Search Console 中,它看起来会正常编入索引 [...],而对于桌面版,如果我们将其视为软 404,您将无法直接在 Search Console 中查看。
资料来源:约翰·穆勒
什么会导致软 404 以及如何修复它
Google 可能将页面归类为软 404 有几个不同的原因,包括:
- 404 页面响应 200 HTTP 状态代码,
- 不相关的重定向,
- 很少或没有内容的页面,
- 包含类似 404 字词的页面,
- 渲染问题。
404 页面响应 200 HTTP 状态代码
如果一个页面实际上是一个 404 页面,但它返回 200 HTTP 状态码,Google 会将其归类为软 404。
如果您有自定义 404 页面,则需要特别注意这一点。
自定义 404 页面对您的用户很有帮助,即使他们试图访问的页面不存在,他们也可以浏览网站。 但是,这些页面返回 200 HTTP 状态代码的情况并不少见。
您应该避免这种情况,因为 Google 会继续抓取这些页面,这会浪费您的抓取预算。
此问题的解决方案是将您的服务器配置为为不存在的页面返回正确的状态代码(404 Not Found)。
不相关的重定向
重定向到不相关的页面是一种不好的做法,可能会使用户感到困惑。 这就是为什么如果 Google 检测到重定向指向一个不相关的页面,搜索引擎可能不会跟随它并将该页面视为软 404。
是的,这不是一个很好的做法(让用户感到困惑),而且我们大多将它们视为 404(它们是软 404),所以没有任何好处。 它不是严重损坏/坏,而是无缘无故地增加了复杂性——改为制作更好的 404 页面。
- 约翰(@JohnMu)2019 年 1 月 8 日
要解决此问题,请始终重定向到相关页面。
从用户的角度看内容。 例如,如果用户正在寻找特定的东西,那么他们最终会出现在您要重定向到的页面上吗? 它与主题相关吗? 如果没有,也许有更好的页面可以回答他们的意图,或者您应该设置一个 404 页面而不是重定向。
内容很少或没有内容的页面
页面上的内容很少或没有内容可能会使 Google 认为该页面是空的,并将其归类为软 404。
一个例子可以是一个电子商务网站,其产品经常进出库存,导致产品类别为空。
这个问题的解决方案并不像前两个案例那样简单。
处理该问题的一种方法是阻止空页的索引。 毕竟,如果它是一个空页面,它对你的用户没有帮助,也不应该被索引。 您可以通过添加一个noindex 元标记(一个告诉搜索引擎您不希望该页面被索引的 HTML 标记)来做到这一点。
此外,值得重新考虑整个网站的结构。
您是否有很多产品类别,例如只有一种产品? 如果是这种情况,您应该重新考虑您的网站是否需要这些类别。 像这样的页面可能被认为是稀薄的内容,它们会以两种方式对您的网站产生负面影响:
- 他们可能会浪费您的抓取预算,并且
- 如果您有很多低质量、可索引的页面,Google 可能会认为您的整个网站缺乏质量,并决定停止经常抓取您的网站。
如果您想详细了解哪些页面应该和不应该被索引,请阅读我们关于为您的网站创建索引策略的文章。
包含类似 404 字词的页面
有时,如果某个页面包含通常出现在 404 页面上的字词,则 Google 的算法会错误地识别该页面。 例如,当产品页面使用“缺货”、“产品不可用”或“我们不送货到您的位置”等术语时,它可能会发生在电子商务网站上。
所有类别页面都有“对不起,我们不送货到这个位置”。 这会显示给客户输入我们不提供的 PIN 码,但默认情况下它是页面的一部分。 从页面中删除了此文本并修复了软 404! #seo @JohnMu @methode @rustybrick https://t.co/j3UEsXXb3U
— 尼基尔·拉吉。 R (@nikhilrajr) 2021 年 12 月 30 日
上述帖子的作者通过简单地删除表示无法交付的文字来解决问题。
渲染问题
渲染是 Google 看到您的内容的必要步骤。 如果搜索引擎看不到它,它可能会认为该页面是空的,并将其归类为软 404。
呈现问题的原因之一是在robots.txt 中阻塞了 CSS 或 JavaScript 等资源。 Robots.txt 是一个文件,可让您指定搜索引擎机器人可以抓取哪些页面,哪些不能。 如果 Google 无法访问渲染所需的资源,它将无法看到内容。
要了解 Google 是否正确呈现您的内容,请使用 Google Search Console 中的 URL 检查工具。 您可以检查各个网址并了解 Google 如何查看您的网页。 如果内容丢失,则表明存在渲染问题。
要解决此问题,请确保 Google 有权访问渲染所需的资源。 检查您的 robots.txt 文件并确保允许抓取 CSS 和 JavaScript。
如果您想了解有关渲染如何工作的更多信息,请查看我们的渲染 SEO 宣言——为什么 JavaScript SEO 还不够。
包起来
监控软 404 非常重要,可确保它们不会因浪费您的抓取预算或将有价值的页面排除在索引之外而损害您的网站。
以下是本文的主要内容,可帮助您避免软 404:
- 如果页面不存在,请确保它返回 404 HTTP 状态代码,
- 创建重定向时,请始终确保您重定向到相关内容,
- 不要在 robots.txt 中阻止渲染所必需的资源,例如 CSS 或 JavaScript 文件,
- 如果您有空页面,请添加 noindex 元标记或从您的站点中删除这些页面,
- 注意使用类似 404 的短语。 如果您注意到您的页面(例如缺货产品)被标记为软 404,请尝试删除这些字词或使用不同的术语。

