如何为 SEO 优化重复内容
已发表: 2022-08-03重复内容是存在于多个页面、一个域或不同网站上的相同或相似内容。
重复内容对搜索引擎来说是个问题,因为当在多个位置看到相同的内容时,他们不知道应该是哪个 URL:
- 索引,
- 分配了相关的排名信号,以及
- 在搜索结果中排名较高。
这可能会导致您的网站排名降低、抓取预算浪费和索引问题,从而消耗您网页的商业潜力。
为了您的业务,您需要了解导致重复内容的原因以及如何优化您网站的各个方面以避免任何问题——让我们来探索一下。
重复内容如何影响 SEO
重复的内容并不总是一个问题——如果您使用技术搜索引擎优化来控制它,它不会损害您的自然流量。 但是,如果您不优化重复的内容,可能会产生致命的后果。
以下是重复内容会对您的网站产生负面影响的主要方式:
较低的排名
相同内容的多个版本使搜索引擎难以决定应该在搜索结果中索引和显示哪个页面。
在这种情况下,如果您的重复页面首先被抓取并编入索引,则它们可能永远不会完全达到其排名潜力。
减少链接权限的转移
搜索引擎很难准确地将反向链接的排名信号分配给重复页面。
如果几个页面上存在相同的内容,则多个 URL 可能会收到来自其他域的链接。 但是总链接权限将在页面之间分配,从而限制您的内容的排名潜力。
索引问题和浪费的抓取预算
如果您有一个大型网站,抓取预算通常是一个问题。 并且搜索引擎可能会在抓取重复页面上浪费抓取预算。
您总是希望将抓取预算用于抓取有价值的内容。 当您在域中留下未经优化的重复内容时,搜索引擎机器人可能会浪费一些资源,不必要地一遍又一遍地抓取相同的内容。
这不仅会延迟他们发现您网站上的其他内容,而且可能会阻止他们经常返回您的网站。
如果是这种情况,您将面临处理索引问题的风险。 请记住,大多数情况下,Google 会查看不同的信号,例如站点地图、内部和外部链接、重定向等,然后从众多 URL 中选择一个作为索引。 问题是它可能不是您想要索引的版本。
如果 Google 无法抓取您的某些网页,您可能很难将重要的、独特的网页编入索引。
此外,假设其他页面包含类似内容,看到大量重复页面会使搜索引擎认为您的整个网站质量低下。 然后,他们可能会犹豫分配资源以在将来抓取您的网站。
重复内容会导致 Google 处罚吗?
您可能听说过关于重复内容是否会给您带来 Google 处罚的相互矛盾的意见。
重复内容不会让您的网站受到惩罚,除非它是由恶意活动造成的。
抓取内容是与重复内容相关的操纵实践的一个示例。 当有人从您的网页中获取内容并在他们的网站上重新发布时,就会发生这种情况。
这种做法相对较少,因为它们通常只会在抓取网站更具权威性并且设法超过最初发布内容的网站时才会引起问题。
您可以通过实施指向现有页面的自引用规范标签来告诉搜索引擎原始内容来自您,从而添加保护措施以保护您的内容免受此类做法的影响。
在极少数情况下,Google 认为显示重复内容可能是为了操纵我们的排名和欺骗我们的用户,我们也会对相关网站的索引和排名进行适当的调整。 因此,该网站的排名可能会受到影响,或者该网站可能会完全从 Google 索引中删除,在这种情况下,它将不再出现在搜索结果中。来源:谷歌的文档
Google 可以区分重复内容的类型,并了解哪些重复内容似乎不会操纵搜索排名。
非恶意重复内容的示例可能包括:
- 可以生成针对移动设备的常规页面和精简页面的讨论论坛
- 在线商店中由多个不同 URL 显示或链接的项目
- 仅打印机版本的网页
来源:谷歌的文档
如果您不是故意从其他网站窃取内容,则无需担心。
重复内容的原因是什么
您的网站上通常不需要相同内容的多个版本。
因此,重复内容往往是由于错误而不是有意识的决定而存在的。
大多数情况下,重复内容的出现是因为糟糕的 Web 开发和站点上的错误实现,例如错误的服务器配置或未优化的 CMS 平台。
我们可以在所有类型的网站上找到重复项,但有些更容易出现重复项,尤其是拥有数千或数百万页面的大型网站。
特别是,电子商务网站可能会处理大量难以跟踪的重复页面。
电子商务网站上的重复内容通常适用于以下方面:
- 产品页面几乎没有内容,或者在许多页面中仅包含通用产品描述。 如果页面包含制造商对给定产品的描述,这些描述也可能出现在其他域中,Google 可能会将其视为重复内容。
- 类别页面具有过滤器,可在多个页面上显示相同产品的列表。
跨多个 URL 的相同内容也涉及博客文章。
网站可能包括比较文章、产品或工具的列表功能,其中许多内容可能在多个页面上描述相同的工具、产品或功能。
博客部分可能包含匹配多个类别的文章——因此,许多 URL 可以指向同一篇文章。
新闻网站经常使用标签来收集相关主题的内容——但在某些情况下,页面可以使用多个标签并出现在网站的多个位置。
重复内容的风险还涉及显示来自其他域使用的数据库的列表的网站,例如市场或房地产网站。 因此,相同的广告或帖子可能会出现在多个域中。
许多网站利用用户生成的内容。 虽然可能有益,但它可能是重复内容的另一个来源——这适用于任何包含用户创建的帖子、广告、个人资料页面等的网站。 通常,用户可能只写几个字,使用复制或垃圾邮件文本,或者只在个人资料页面上添加指向其网站的链接。
这绝不是导致重复内容的详尽列表,但它应该让您了解哪种类型的内容会使您的网站处于危险之中并且应该受到监控。
管理重复内容的方法
根据站点层次结构中重复页面的质量和角色,您可能希望通过不同的方法来解决它们。
以下是您的选择以及您应该了解的每种解决方案:
使用规范标签
规范标签告诉搜索引擎哪个页面包含给定内容的主要版本并且应该被索引。
您可以通过规范化通知搜索引擎给定页面应被视为指定 URL 的副本。 排名信号,如搜索引擎应用于此页面的链接权限,应计入指定的 URL。
与其他解决方案(例如重定向)相比,实施规范标签所需的开发时间更少,因为它们是在页面而不是服务器级别添加的。 确保将规范标签添加到 HTML 的 <head> 部分 - 如果将其放在 <body> 中,它将不会被尊重。
尽管搜索引擎机器人通常遵循规范指令,但在某些情况下,它们可能会忽略它并选择不同的规范页面。 如果搜索引擎看到指向另一个 URL 的更强信号(例如更多内部链接或权威反向链接),则可能会发生这种情况。

添加重定向
对抗重复内容的另一个解决方案是实现从非首选 URL 到其首选版本的重定向。
如果您要永久重定向 URL,请使用 301 重定向,这通常是管理重复内容的最佳选择。
重定向可帮助您将排名信号整合到一个 URL 下,因此 Google 应该只将目标页面编入索引。
实现一个 noindex 标签
您可以将 noindex 标记添加到重复的页面,这些页面不应该被搜索引擎索引,但应该对用户保持可见。
不过,请确保您没有阻止对这些页面的抓取——如果您这样做了,机器人将无法看到 noindex 标记。
删除重复页面
如果重复页面对您的访问者或您的业务没有任何用途,并且您不打算对其进行改进,您可以删除它们。
您可以通过将它们的状态代码更改为 404 或 410来删除它们。
两种状态代码具有相同的长期后果。 唯一的区别是 410 可以从索引中删除页面并限制它们比 404 更快的爬行。
解决重复内容的最佳实践
让我们通过重复页面来解决潜在问题需要考虑的方面。
决定是否应抓取重复的页面
考虑是否应该允许搜索引擎抓取您的重复页面。 这在很大程度上取决于重复内容的类型以及您打算如何处理它。
如果页面包含重定向, Google 需要能够抓取它们- 否则,它不会看到它们。 如果您添加了noindex 标签,情况类似——Google 必须抓取页面以发现 noindex 标签并跟踪它。
此外,如果您对重复项进行了改进,例如通过添加独特的内容,Google 将需要抓取该页面以重新评估其质量。
如果您有重复的内容对您的网站没有价值并且您无法对其进行更改,请通过在robots.txt中实施适当的指令来限制搜索引擎抓取它的能力。
调整你的 URL 结构
不一致的URL 结构会导致大量重复内容。
以下是您应该注意的 URL 方面:
Wwws 和非 wwws 或 HTTP 和 HTTPS
您的网站上可能有可以在没有 www 的情况下访问的 URL,例如example.com和包含 www 的 URL,例如www.example.com 。
同样的问题与协议有关:URL 可以包含http://example.com或https://example.com 。
大多数现代网站都使用 HTTPS,因为它提供了更安全的通信。 但有时,您可能仍然有一些仍然可以通过 HTTP 访问的页面。 而且,如果您迁移到 HTTPS 并且没有从 HTTP 重定向站点,您甚至可以创建它的两个版本。
无论您是否添加 www,以及使用哪种协议,都请确保它是一致的。
如果您发现任何不遵循所选模式的 URL,请针对指向首选版本的非首选方式实施 301 重定向。
小写和大写字符
Google 将URL 视为区分大小写。 因此,对于 Google, example.com /page和example.com/PAGE将是两个不同的页面。
通常在 URL 中使用小写字符,因此用户可以更轻松地键入它们而不会出错。
但是,如果您交替使用这些案例,您可能会创建具有相同内容的不同 URL。
如果您发现任何类似的情况,请选择带有首选大小写的 URL 并将不正确的版本重定向到它。
尾随斜杠
最后带有和不带斜杠的相同 URL 也将被视为不同的页面 - 例如example.com和example.com/ 。
再一次,确保您坚持使用相同的 URL 模式并在必要时重定向错误的页面。
跟踪或过滤参数
电子商务网站上的过滤参数通常会导致重复页面。
如果有许多过滤器可用,则可以以不同的组合选择它们,从而生成大量具有相同或几乎相同内容的 URL。 这方面的一个例子可能是https://www.example.com/clothes/dresses?size=medium 。
参数也倾向于用于跟踪目的,这是重复内容的另一个来源。 例如,您可以添加 UTM 参数来跟踪来自特定来源的访问,例如 Twitter 或新闻通讯。 这是一个示例: https ://example.com/page?utm_source=twitter 。
您应该将参数化 URL 规范化为没有跟踪参数的 URL 版本。
会话 ID
会话可能会存储访问者信息以进行 Web 分析,其中为访问网站的每个用户分配了存储在 URL 中的不同会话 ID。 它可能看起来像这样: https ://example.com?sessionId=jsdfo74256sdfh 。
如果访问者请求的每个 URL 都附加了一个会话 ID,那么就会有很多重复的页面,因为这些 URL 上的内容是相同的。
将带有附加会话 ID 的 URL规范化为没有它们的 URL。
仅打印 URL
在单独的 URL 处具有页面的打印友好版本意味着相同内容有两个版本,例如https://www.example.com/page/和https://www.example.com/print /页/ 。
实施从打印友好版本到页面标准版本的规范 URL。
优化您的内容
您可以通过关注页面上的内容来进行进一步的调整。
最重要的是,如果您有有价值的页面应该排名和增加流量,请确保它们包含针对特定用户意图的独特、高质量的内容。
尽管它耗费时间和资源,但从长远来看是值得的。
以下是优化时要考虑的一些内容方面:
改进产品页面
提供独特的产品描述,而不是复制制造商的通用描述。
常见问题解答是包含有关您的产品或服务的其他信息的好地方。 不过要小心——如果您列出产品描述中提到的确切细节,则可能是部分内容重复。
调整类别页面
每个类别页面都应该是唯一的和相关的。 浏览您的类别并考虑每个类别是否有必要——它们对用户有多大帮助?
考虑删除一些或将它们合并为一个。 对类别中可用的任何过滤或排序选项执行相同操作。
整合内容
如果您有几篇讨论相关主题的文章,请考虑将它们合并为一个更大的内容,这可能是其最全面的版本。
这样,您可以创建有用的内容,在一个地方提供所有信息,而不是将其分散在几个 URL 上,从而最大限度地减少相似页面的数量。
用一篇高质量的文章进行排名也可能比针对同一主题的多篇平庸的文章更好。
创建补充内容
考虑创建可以使页面更加独特和有价值的补充内容,并增加它们被索引和排名良好的机会。 想一想改善用户体验以及什么对访问者最有帮助。
例如,假设您有一个提供工作机会的网站。
在这种情况下,您可以创建一个工资计算器。 您可以通过概述不同类型的合同、解释每项扣除、提供各种就业形式的利弊等来提供访问者可能寻求的其他信息。
浏览内容很少的页面,想想是否有什么可以添加的。
但是,如果您无法改进它们并且它们为用户提供的价值有限并且无法为您的网站带来自然流量,那么最好添加一个 noindex 标签以防止它们被编入索引。
利用用户生成的内容
用户创建的独特、全面的内容可能对您的网站有益。 例如,您可以鼓励客户留下评论并将其显示在您的页面上。
评论可以提供客户如何使用您的产品或他们对您的服务的体验的真实描述,从而丰富您的网站。
特别是,产品页面可以受益于包含产品图像和特定信息的深入、公正的评论。
实施特定机制,例如用户在您的网站上发布评论或广告所需的最少字符数,是防止用户生成内容过少或重复的绝佳方法。
优化服务国际内容
如果您的网站有多个具有相同内容的语言版本,则不同语言版本不会被视为重复。
但是,如果您拥有相同的内容并将其用于针对不同地区讲相同语言的人,则可能会出现问题。 例如,您可以在不同英语版本的网站上拥有相同的内容——一种用于美国,一种用于加拿大,一种用于英国。
如果您向不同的受众提供相同的内容,请实施 hreflang 标记以向 Google 发出信号,以告知您要访问的语言和国家/地区。
有时,即使具有 hreflang 属性,Google 也可能会将内容归类为重复内容,并将两个或多个版本简单地折叠在一起。 在许多情况下,这可能不是一个严重的问题,但它可能会对用户体验产生负面影响。
这就是为什么您应该简单地避免在多个页面中显示相同的内容。
努力本地化您的内容,尤其是针对战略性国际市场。 本地化不仅仅是翻译——您需要使其适合您所针对的特定国家,同时考虑当地词汇、习俗、货币等。
管理内部链接
一旦您决定了 URL 的首选版本,请检查您网站的内部链接并确保每个链接都指向正确的 URL 版本。
正确地联合内容
联合内容时,必须选择原始来源作为规范来源。
同样,当另一个网站联合您的内容时,请确保它们包含指向您的原始内容的链接并指向正确的 URL。
禁用对暂存环境的访问
登台或测试环境包含生产中可用的站点副本。 因此,它们不应该被搜索引擎抓取或索引。 为了防止它们被机器人和用户访问,请实施 HTTP 身份验证。
使内部搜索结果页面不可索引
使用您的内部搜索结果的访问者会查看您网页的不同变体,通常会显示相同或相似的 URL。
确保您没有链接到内部搜索结果页面,因此机器人无法按照路径查找和抓取它们。
您应该向这些页面添加 noindex 标记,这样它们就不会被编入索引。 但是,如果您发现漫游器过度抓取这些页面,您可以在 robots.txt 文件中限制它们的访问。
值得注意的是,在某些情况下,您实际上可能希望您的一些内部搜索页面被编入索引——但只是其中的一些。 如果您分析您的用户如何在 Google 上查找您的内容,并发现内部搜索页面可以完美地回答用户意图,请随意使该页面可索引。
防止由 CMS 引起的重复内容问题
CMS 平台会因重复内容而引起他们的问题。
例如, WordPress 会自动生成标签和类别页面。 这样的页面可能会严重浪费爬虫的资源。
WordPress 还创建了评论分页,分页后的页面显示原始内容,只在底部显示不同的评论。
您可能还会发现您的 CMS 会为不包含任何其他内容的图像创建单独的页面。
将 noindex 标记添加到不需要的页面或在 CMS 中禁用这些功能。
如何在您的网站上查找重复的内容问题
有一些快速方法可以检查您的内容是否重复。
您可以使用Copyscape之类的工具来查看您网页中的哪些内容出现在网络上。

要了解您网站上的重复内容问题,请使用Siteliner ,它可以揭示您网站上的页面如何匹配彼此的内容。

Google 的索引覆盖率报告
要更详细地分析重复内容问题,请访问Google Search Console 的索引覆盖率报告,该报告将向您展示具体问题以及如何解决这些问题。
您可以在那里找到以下错误,这些错误表明与重复内容相关的索引问题:
没有用户选择的规范的重复
Google 发现了未规范化为首选版本的重复 URL。 您可以通过导航到URL 检查工具来检查哪个 URL 被选为规范。
要解决此问题,建议您自己选择规范 URL 。
重复,谷歌选择了与用户不同的规范
Google 忽略了指定的规范 URL,并选择了一个它认为更合适的其他 URL。
此问题表明Google 没有找到足够的信号指向代表给定内容的主要版本的指定 URL - 了解如何修复 Duplicate,Google 选择了与 user 不同的规范。
重复的,提交的 URL 未被选为规范
此状态表明您提交的网址没有规范网址,并且 Google 认为提交的网址重复,因此选择了不同的规范网址。
尽管此状态类似于 Duplicate,但 Google 选择了与用户不同的规范,不同之处在于您明确要求 Google 将这些 URL 编入索引,而不包括规范 URL 。
再次,您需要将规范标签添加到首选 URL。
概括
重复的内容不会导致 Google 处罚,但它仍然可以有效地减缓您的网站在网络上的增长。
这就是为什么您应该注意任何重复页面并监控您的实现,以确保没有任何机制可以在没有您监督的情况下创建大量页面。
在页面上创建独特的内容、确保 URL 的一致性以及在适当的情况下实施规范标签和重定向是帮助 Google 正确索引和排名页面的好方法。
