19个常见的技术SEO问题（推荐解决方案）

已发表: 2020-08-19

在 Semetrical，我们的 SEO 专家多年来进行了无数次技术 SEO 审核，并遇到了网站在多个行业中遇到的常见技术问题。我们的指南概述了最常见的技术 SEO 问题以及推荐的解决方案。

下面列出了最常见的技术 SEO 问题：

机器人中不区分大小写的规则，txt
大写和小写 URL 重复
HTTP 302 重定向到 HTTPS
影响内部链接的规范 URL
链接到 404 URL 的规范 URL
多个规范标签
主页复制
移动版和桌面版网站不同
国际IP检测
国际网站复制
XML 站点地图，包括历史 URL 和暂存 URL
登台网站被索引导致重复
内部搜索被索引
导致重复的参数
产品网址重复
网站深度
JavaScript
Meta Robots NOINDEX 的错误使用
软 404 页面

1.机器人中不区分大小写的规则，txt

问题：

在进行技术 SEO 审核时，我们经常发现 robots.txt 中的禁止规则不能同时满足大写和小写规则。

例如，在电子商务网站上，购物篮路径通常会同时出现在 /basket/ 和 /Basket/ 上，但作为规则，robots.txt 中只包含小写路径。这意味着带有 /Basket/ 的 URL 仍然是可索引的，这会导致内容重复，您必须避免这种情况，以改进您的网站在搜索引擎上的索引。

Robots.txt 规则：

禁止：/篮子/

不允许：/basket/*

解决方案：

审核您的网站并检查是否有需要阻止的路径的大写和小写版本。您可以使用网络爬虫来执行此操作，例如我们在 DeepCrawl 的朋友。如果网站上同时存在两个版本，请在 robots.txt 中添加第二条规则，以适应要阻止的大写路径。例如，不允许：/Basket/*

如果您无权访问网络爬虫，则站点协议搜索对于查看是否同时索引大写和小写版本非常有用。

2.大小写URL重复

问题：

我们发现的一个常见问题是在整个网站上链接到的不区分大小写的 URL 重复，而 Google 认为这是两个不同的 URL。例如：

https://www.example.co.uk/Panerai/Watches

https://www.example.co.uk/panerai/watches

这可能是由于博客文章中的编辑添加了指向产品页面的直接链接，但他们输入了大写字母而不是小写字母。

我们也看到了这种情况的发生，因为内部链接模块存在一个错误，即流行的产品链接通过大写字母链接到。

解决方案：

我们建议在服务器级别设置规则，其中所有大写 URL 通过 301 重定向重定向到小写。这将保护网站免受任何将来链接到大写和小写 URL 的重复。

添加 301 重定向规则还将合并任何链接资产，其中外部站点可能通过大写字母错误地链接到您的站点。

如果无法进行 301 重定向，我们建议在大写 URL 的源代码中添加规范标记以引用小写 URL 版本。

3. HTTP 302 重定向到 HTTPS

问题：

公司经常将他们的网站迁移到安全的 HTTPS URL，但他们并不总是实施 301 重定向规则，而是实施 302 重定向，因此这在理论上告诉搜索引擎 URL 的 HTTP 版本只是暂时移动而不是永久移动。这可能会降低您网站的链接权益和整体权限，因为随着时间的推移获得反向链接的 HTTP URL 不会完全将链接权益传递给 HTTPS 版本，除非有 301 重定向。

解决方案：

我们建议在服务器级别设置一个规则，其中所有 HTTP URL 301 重定向到 HTTPS 版本。

4. 影响内部链接的规范 URL

问题：

在许多电子商务网站上，我们看到产品具有多个产品 URL 变体，但每个变体都链接到规范产品 URL 以防止重复。但是，规范产品页面只能通过规范标签找到，不能通过其他内部链接找到。

此外，规范的产品页面不包含任何影响整个网站的内部链接的面包屑。

这种内部链接规范设置有时会阻止搜索引擎获取规范的 URL 版本，因为忽略了该指令，因为整个站点的内部链接正在发送混合信号。这可能会导致产品的非规范版本被索引，从而导致 URL 蚕食——最终对您的 SEO 性能产生负面影响。

解决方案：

为了帮助规范 URL 被索引，网站应该：

将规范 URL 添加到 XML 站点地图，而不是其他 URL 变体

内部链接到站点范围内部链接模块（例如“流行产品”）中的规范 URL 版本

将主要面包屑结构添加到规范 URL 页面。

5. 链接到 404 URL 的规范 URL

问题：

规范 URL 偶尔会引用 404 URL，但这会向搜索发送混合信号

引擎。规范 URL 正在指示首选 URL 的爬网程序编制索引，但首选 URL 当前已不存在。

解决方案：

首先，您应该确定规范 URL 是否应该是 404 或是否应该恢复。如果它被恢复，那么问题就解决了，但是如果规范 URL 应该是 404，那么您应该选择一个新的规范 URL 或将规范更新为自引用。

6.多个Canonical标签

问题：

在网页的 HTML 代码中，有时可能会找到两个规范标签。这可能会向搜索引擎发送相互冲突的消息，并且只会计算和使用第一个规范。

解决方案：

一些网站爬虫可能会标记多个规范标签，但是，如果不是这种情况，那么您应该在爬取网站时设置自定义提取以查找多个规范标签。

需要更新 HTML 代码中具有多个规范标签的网页，其中一个被删除并且只保留正确的规范标签。

7.首页复制

问题：

网站偶尔会有多个主页 URL，这会导致重复，并可能导致链接资产分裂。常见的主页复制 URL 包括：

www.example.com

www.example.com/home

www.example.com/index.html

www.example.com/home.html

解决方案：

如果您的网站有多个主页 URL，我们建议设置 301 重定向，其中所有重复版本都重定向到主主页版本。

8. 移动版和桌面版网站不同

问题：

移动网站应包含与桌面版网站相同的内容。在进行网站审核并将桌面与移动网站抓取进行比较时，我们遇到了内容差异，即移动版本在某些页面上包含的内容少于桌面版本。

这可能会导致问题，因为网站的几乎所有索引都来自移动版本，如果缺少优先内容，排名可能会开始下降。

解决方案：

网站的移动版本应包含与桌面版本相同的内容，并且应将缺少的内容添加到移动网站。

9.国际知识产权检测

问题：

对于已实施地理 IP 重定向的网站，最常见的问题是实施重定向所有用户，其中包括机器人。

Googlebot 通常会从美国 IP 抓取，如果机器人是根据地理位置重定向的，那么 Googlebot 只会抓取美国版本的网站并将其编入索引。这将防止网站的其他地理版本被抓取和索引。

此外，这可能会导致电子商务网站上的产品定价模式标记出现问题，其中定价会根据地理位置进行更新，因为所有市场中只会出现美国价格。例如，下面的代码片段显示了英国网站英国版的美国定价。

解决方案：

如果您需要实施地理 IP 重定向，那么我们建议您从重定向规则中排除所有机器人，因为这将允许 Googlebot 等机器人抓取所有国际版本并将其编入索引。

如果您不实施地理 IP 重定向，我们建议您保持您的网站对来自任何地理位置的所有用户开放，并显示一个用户友好的 JavaScript 横幅，允许用户选择他们自己的语言/位置。

如果用户登陆了错误的国际网站版本，这是一个有用的 UX 功能。弹出窗口将根据 IP 检测显示，例如，如果用户从英国 IP 登陆美国网站，则会出现横幅，告诉用户英国网站可能更合适。

10. 国际网站复制

问题：

当公司在全球不同国家开展业务时，通常会看到网站的多个版本。这是一种常见的做法，因为理想情况下您希望提供最佳的用户体验，为此，特定国家/地区的网站使公司能够根据用户在世界上的位置来定制用户旅程。

但是，公司可能会错误地创建其网站的多个版本，但不会向搜索引擎发送任何信号来指示哪个网站应该针对特定国家或地区。

当网站所有者在没有搜索引擎说明的情况下创建多个网站版本时，这可能会导致网站重复和跨域蚕食等混乱。

解决方案：

在创建网站的国际版本时，应使用 Hreflang 标签来帮助向搜索引擎（如 Google）发出信号，根据用户的位置和语言向用户提供正确的网页。

Hreflang 标签还可以防止网站的国际版本被搜索引擎视为重复，因为 Hreflang 标签本质上表明需要特定页面来使用 X 语言设置在 X 位置为用户提供服务。

设置和映射 Hreflang 标签可能会让人感到困惑，并且是一项艰巨的任务，具体取决于您网站的大小。如果设置不正确，可能会损害您的网站流量。

如果您正在规划国际网站扩展或对您的国际网站有疑问，请访问我们的国际 SEO 服务页面。

11. XML 站点地图，包括历史 URL 和暂存 URL

问题：

我们遇到的一个有趣的问题比您想象的要多，那就是网站在其 XML 站点地图中包含旧 URL，或者暂存 URL 以某种方式将自身压缩到 XML 站点地图中。

这可能会导致问题，就像登台 URL 出现在您的站点地图中，并且您的登台站点可能不会被搜索引擎阻止，这些 URL 可能会开始被编入索引，进而导致不必要的重复。

您站点地图中现在提供 4xx 或 3xx 状态代码的历史 URL 可能会向搜索引擎发送令人困惑的信号，您希望在哪些页面上抓取或编入索引。

解决方案：

确保通过密切关注 Search Console 并监控出现的错误或在 Deepcrawl 等工具中设置定期抓取来定期审核您的 XML 站点地图。

在 Deepcrawl 中设置 XML 站点地图的定期爬网非常有用，因为这可以快速标记任何不应出现在站点地图中的 URL，并使您能够掌握这个潜在问题。

12. 登台网站被索引导致重复

问题：

令人惊讶的是，许多公司的登台网站可被谷歌等搜索引擎索引，这不是故意的，而是错误的。这可能会导致大量重复，因为登台网站通常是您的实时环境的副本。通过在 Google 上进行简单的 URL 协议搜索，就有数百万个暂存网页是实时的和可索引的。

解决方案：

在 Semetrical，我们建议添加一个身份验证层，您需要在其中输入用户名和密码才能访问暂存网站。添加禁止规则也是防止登台环境被索引的一种选择，但是如果登台站点尚未被索引，则最好实施此操作。例如：

用户代理： *

不允许： /

大多数网站爬虫工具都有 robots.txt 覆盖功能，因此您可以在暂存环境中进行测试时轻松覆盖禁止规则。

13. 内部搜索被索引

问题：

网站上的内部搜索 URL 非常适合 SEO，它允许网站对超长尾搜索查询进行排名，或者对没有主要 URL 进行排名的关键字进行排名。

但是，在很多情况下，内部搜索页面会导致网站上出现大量重复，并且还会导致大型网站上的抓取预算问题。对于本指南，我们将重点关注内部搜索的消极方面。

内部搜索页面通常质量非常低，因为它们不会被优化，并且在很多情况下被归类为薄内容，因为它们将包含少量结果，例如产品。

解决方案：

在决定阻止内部搜索页面之前，建议检查这些页面当前没有为任何关键字排名或带来常规流量。

另外检查这些 URL 多年来是否没有建立反向链接。如果您的内部搜索页面没有权威的反向链接并且不产生自然流量，那么在 Semetrical 我们建议两个步骤：

第一步：将 NOINDEX,FOLLOW 标签添加到所有搜索页面，以允许搜索引擎取消索引这些页面。一旦这些页面在几个月内被取消索引，我们就会实施第二步。

第二步：将内部搜索目录添加到robots.txt文件如Disallow: */search*

14.导致重复的参数

问题：

在审核网站时，排序和过滤参数重复可能是一个常见问题。许多网站将使用过滤器，因为它可以增强用户体验并允许用户过滤他们的搜索结果。然而，主要问题是当网站保持过滤器可索引时，因为这会在整个网站上产生大量重复。例如：

https://www.example.com/path1/path2?sort-by=size&sort-order=asc

https://www.example.com/path1/path2?view=grid

有时，我们会遇到一些网站，它们在内部链接的 URL 末尾添加跟踪参数，以指示该链接在网站中的哪个位置被点击。我们不建议一开始就使用这种设置，但是当网站已经有了这个设置时，它可能会导致网站上出现大量重复，因为它可以创建同一页面的多个版本。例如：

https://www.example.com/path-1/path-2?wa_origin=paHomePage

https://www.example.com/path-1/path-2?wa_origin=gnb

https://www.example.com/path-1/path-2?source=header

另一个可能导致重复的常见跟踪参数是 UTM 跟踪参数，其中链接用于特定活动，以跟踪活动的执行情况。例如：

https://www.example.com/path-1/path-2?utm_source=creativeLIVE&utm_medium=email&utm_campaign=2020_Flash_Sale

解决方案：

有许多方法可以防止参数被索引并导致重复，其中包括：

将参数 URL 规范化为干净的 URL 版本

在 robots.txt 文件中添加规则以禁止特定参数

向 Search Console 中的 URL 参数工具添加参数，这会向 Google 发出信号，表明不应抓取某些参数。

15.产品网址重复

问题：

在电子商务网站上，产品 URL 重复可能是一个大问题，在出版商网站上也是如此。产品 URL 重复的主要原因是产品可以继承其 URL 结构中的类别/子类别，如果产品位于多个类别/子类别中，则因此会创建多个 URL。

在出版商网站上，文档也可以位于多个区域，如果文档 URL 继承文档位置，则会创建多个版本。例如：

https://www.example.com/product/woman-collections-dresses/71hdo/bella-lula-floral-mini-dress

https://www.example.com/product/woman-collections-dresses-day-dresses/71hdo/bella-lula-floral-mini-dress

https://www.example.com/willsandprobate/document/introduction-to-wills

https://www.lexisnexis.com/privateclient/introduction-to-wills/

解决方案：

当我们遇到这样的重复时，有多种方法可以清理它，这样我们就可以确保正确的 URL 版本被抓取和索引。

要修复 URL 重复，我们建议将所有产品 URL 变体规范化为父版本或通用版本。例如：

父规范示例

https://www.example.com/product/

女装系列连衣裙日装

/71hdo/bella-lula-花卉迷你连衣裙

将规范化为：

https://www.example.com/product/

女装系列

/71hdo/bella-lula-花卉迷你连衣裙

通用规范示例：

https://www.example.com/product/

女装系列连衣裙日装

/71hdo/bella-lula-花卉迷你连衣裙

https://www.example.com/product/

女装系列

/71hdo/bella-lula-花卉迷你连衣裙

将规范化为

https://www.example.com/product//71hdo/bella-lula-floral-mini-dress

备择方案：

如果您可以访问开发人员，那么另一种解决方案是在整个网站内部链接到产品规范，并 301 将所有超出类别/子类别的产品 URL 重定向到通用规范产品 URL。

这将停止产品重复并使您能够通过多条路径链接到产品

16. 网站的深度

问题：

页面深度是特定页面来自网站主页的点击次数。在进行网站审核时，我们会遇到网站深度大于 10 的网站。这意味着这些页面距离主页有 10 次点击！

查找网页所需的点击次数越多，搜索引擎就越难找到该 URL，并且该 URL 更有可能不会像网站中较高的页面那样频繁地被重新访问。

此外，页面在您的网站架构中越高，被搜索引擎视为优先页面的机会就越高。如果架构中的优先级页面较低，则存在排名不高的风险。

解决方案：

提高网站深度并确保优先页面在网站架构中处于较高位置的主要方法包括：

跨网站的内部链接，例如推荐产品、相关产品和特色页面

在整个网站上使用面包屑

设置分页，其中包括您所在页面两侧的第一个、最后一个和两个结果页面

进行关键字研究以发现应在网站主导航中链接的顶级类别页面，并添加指向优先页面的链接

17. JavaScript 技术 seo 问题

问题

今天的许多网站都将使用 JavaScript，但是当禁用 JavaScript 时，一些网站的功能不完整，链接可能会消失，搜索引擎将无法发现。这是一个常见的技术 SEO 问题。

我们经常看到，电商产品页面上的“你也可能喜欢”模块，搜索引擎爬虫是看不到的，使得内部链接模块变得多余。

此外，包含关键字丰富的 UGC 的评论模块位于 JavaScript 模块中，爬虫也无法发现。

各种电子商务网站都有一个有趣的问题，当在结果页面上禁用 JavaScript 时，仍然可以找到产品链接，但所有图像都会消失，因为没有可供发现图像的后备选项。

解决方案：

与开发团队合作，尝试创建一个 JavaScript 后备方案，其中图像仍然存在于源代码中，并且 JavaScript 模块可以通过 HTML 抓取。

测试 JavaScript 内容如何被索引的一个好方法是转到网页的缓存版本并查看页面的“完整版本”以及查看“纯文本版本”。

18. Meta Robots NOINDEX 的错误使用

问题：

我们的SEO技术团队对网站进行了审核，发现NOINDEX标签被错误地添加到了页面的源代码中。此外，查看历史上带有 NOINDEX 标记的流量的页面。

令人惊讶的是，一个比您想象的更频繁发生的问题是开发人员在源代码中仍然存在 NOINDEX 标记的情况下推动暂存环境。

最终，NOINDEX 标签将告诉搜索引擎不要索引该页面，并阻止该页面出现在搜索结果中。

解决方案：

如果您在审核网站时遇到带有 NOINDEX 标签的页面，并且不清楚为什么要使用该标签，请咨询开发团队以了解这些页面何时以及为何包含该标签。

如果错误添加了 NOINDEX 标签，那么您应该要求开发人员更新源代码并完全删除标签或将其更新为读取 <meta name=”robots” content=” INDEX, FOLLOW”>

19. 软 404 页面

问题：

网站上不应存在软 404 页面，它发生在应返回 404 状态代码的不存在页面返回 200 OK 状态代码时。如果 404 页面返回 200 状态代码，它们仍然可以被抓取和索引。

这最终是一个问题，因为诸如 Google 之类的搜索引擎可能会浪费时间来抓取这些页面，而这些页面没有提供任何价值，浪费抓取预算，而不是将时间集中在有价值的页面上。这些页面还可能在网站上创建重复问题，特别是如果网站有 1,000 个软 404 页面显示“页面未找到”消息。

有几种不同的方法可以找到软 404 页面，其中包括：

访问 Search Console 并在其中标记软 404 页面

爬取您的网站并寻找 200 个带有“页面未找到”标题标签的状态代码页面

使用自定义提取来抓取您的网站，该提取会查找 404 状态代码页上存在的正文副本消息，并且带有该消息的任何 200 状态代码页都应该是软 404

解决方案：

如果您在网站上遇到软 404 页面，则可以实施一些解决方案，其中包括：

301 将软 404 页面重定向到适当的替代页面（如果可用）

将这些页面的状态代码更改为 404 或 410 状态代码，但检查不会丢失链接资产。

如果您的网站遇到问题或需要技术 SEO 审核，请访问我们的技术 SEO 服务页面，了解有关 Semetrical 如何提供帮助的更多信息。