SEOのために重複コンテンツを最適化する方法
公開: 2022-08-03重複コンテンツとは、複数のページ、1 つのドメイン、または異なる Web サイトに存在する同一または類似のコンテンツです。
重複したコンテンツは検索エンジンにとって問題となります。同じコンテンツが複数の場所で表示された場合、どの URL が適切かがわからないためです。
- 索引付き、
- 割り当てられた関連するランキング シグナル、および
- 検索結果上位に表示されました。
これにより、ランキングの低下、クロール バジェットの浪費、ウェブサイトのインデックス作成の問題が発生し、ページのビジネスの可能性が失われる可能性があります。
ビジネスのために、コンテンツの重複を引き起こす原因と、問題を回避するためにサイトの側面を最適化する方法を理解する必要があります。詳しく見ていきましょう。
重複コンテンツが SEO に与える影響
重複コンテンツは常に問題になるわけではありません。技術的な SEO を使用して重複コンテンツを制御すれば、オーガニック トラフィックが損なわれることはありません。 しかし、重複するコンテンツを最適化せずに放置すると、致命的な結果を招く可能性があります。
重複コンテンツがウェブサイトに悪影響を及ぼす主な原因は次のとおりです。
下位ランキング
同じコンテンツのバージョンが複数あると、検索エンジンはどのページをインデックスに登録して検索結果に表示するかを決定するのに苦労します。
その場合、重複ページが最初にクロールされてインデックスに登録された場合、ランキングの可能性を完全に達成することはできません.
リンク権限移譲の削減
検索エンジンは、バックリンクからのランキング シグナルを重複ページに正確に割り当てることが困難な場合があります。
いくつかのページに同じコンテンツが存在する場合、複数の URL が他のドメインからのリンクを受け取る可能性があります。 ただし、リンクのオーソリティ全体がページ間で分割されるため、コンテンツのランキングの可能性が制限されます。
インデックス作成の問題と無駄なクロール バジェット
大規模な Web サイトの場合、クロール バジェットがしばしば問題になります。 また、検索エンジンは重複ページのクロールにクロール バジェットを浪費する可能性があります。
貴重なコンテンツのクロールにクロール バジェットが費やされることを常に望んでいます。 最適化されていない重複コンテンツをドメインに残しておくと、検索エンジン ボットが同じコンテンツを何度もクロールしてリソースの一部を無駄にする可能性があります。
これにより、サイト上の他のコンテンツの発見が遅れるだけでなく、サイトに頻繁に戻ってくるのを思いとどまらせる可能性があります.
その場合、インデックス作成の問題に対処するリスクがあります。 ほとんどの場合、Google はサイトマップ、内部および外部リンク、リダイレクトなどのさまざまなシグナルを調べて、多数の URL の中から 1 つの URL を選択してインデックスに登録することに注意してください。 問題は、インデックスを作成したいバージョンではない可能性があることです。
Google がページの一部をクロールできない場合、重要な固有のページをインデックスに登録するのに苦労する可能性があります。
さらに、大量の重複ページが表示されると、他のページに同様のコンテンツが含まれていると仮定して、検索エンジンが Web サイト全体を低品質と認識する可能性があります。 そのため、今後サイトをクロールするためのリソースを割り当てることを躊躇する可能性があります。
重複したコンテンツは Google のペナルティにつながる可能性がありますか?
重複したコンテンツが Google のペナルティをもたらすかどうかについて、意見が対立するのを聞いたことがあるかもしれません。
悪意のある行為によるものでない限り、重複したコンテンツによってサイトが罰せられることはありません。
コンテンツのスクレイピングは、複製コンテンツに関連する操作行為の一例です。 誰かがあなたのページからコンテンツを取得して、サイトに再公開するときに発生します。
通常、スクレイピング サイトがより権威があり、コンテンツを最初に公開した Web サイトよりも上位にランク付けされている場合にのみ問題が発生するため、このような慣行は比較的まれです。
既存のページを指す自己参照正規タグを実装して、元のコンテンツがあなたからのものであることを検索エンジンに伝えることにより、そのような慣行からコンテンツを保護するためのセーフガードを追加できます。
まれに、Google のランキングを操作してユーザーを欺く目的で重複したコンテンツが表示される可能性があると Google が判断した場合は、関連するサイトのインデックス作成とランキングを適切に調整します。 その結果、サイトのランキングが低下するか、サイトが Google インデックスから完全に削除され、検索結果に表示されなくなる可能性があります。出典: Google のドキュメント
Google は、重複コンテンツの種類を区別し、どの重複コンテンツが検索ランキングを操作していないように見えるかを理解できます。
悪意のない重複コンテンツの例には、次のようなものがあります。
- モバイル デバイスを対象とした通常のページと簡素化されたページの両方を生成できるディスカッション フォーラム
- 複数の異なる URL で表示またはリンクされているオンライン ストアのアイテム
- Web ページの印刷専用バージョン
出典: Google のドキュメント
他のサイトから意図的にコンテンツを盗んでいない場合は、心配する必要はありません。
重複コンテンツの原因は何ですか
通常、Web サイトに同じコンテンツの複数のバージョンは必要ありません。
したがって、意識的な決定ではなく、エラーが原因で重複するコンテンツが存在する傾向があります。
ほとんどの場合、重複したコンテンツは、不適切なサーバー構成や最適化されていない CMS プラットフォームなど、 Web 開発が不十分で、サイトの実装に問題があるために表示されます。
すべてのタイプのサイトで重複を見つけることができますが、特に数千または数百万のページを持つ巨大な Web サイトなど、重複しやすいサイトもあります。
特に、 e コマース サイトでは、追跡が困難な大量の重複ページを処理する場合があります。
多くの場合、e コマース サイトの重複コンテンツは、次の側面に当てはまります。
- 製品ページにはコンテンツがほとんどまたはまったくないか、多くのページにわたって一般的な製品説明のみが含まれています。 ページに特定の製品の製造元の説明が含まれている場合、これらは他のドメインにも表示される可能性があり、Google はそれを重複コンテンツとして扱う可能性があります。
- カテゴリ ページには、同じ製品のリストを複数のページに表示するフィルターがあります。
複数の URL にまたがる同一のコンテンツは、ブログ記事にも関係します。
サイトには、比較記事、製品またはツールの機能のリストが含まれる場合があり、コンテンツの多くの部分が複数のページで同じツール、製品、または機能を説明している場合があります。
ブログ セクションには、複数のカテゴリに一致する記事が含まれる場合があります。その結果、多数の URL が同じ記事につながる可能性があります。
ニュース サイトでは、関連トピックのコンテンツを収集するタグを使用することがよくありますが、状況によっては、ページで複数のタグを使用して、サイトの複数の場所に表示されることがあります。
重複コンテンツのリスクは、マーケットプレイスや不動産サイトなど、他のドメインで使用されているデータベースから提供されたリストを表示する Web サイトにも関係します。 その結果、同一の広告または投稿が複数のドメインに表示される可能性があります。
多くのサイトでは、ユーザー生成コンテンツを利用しています。 潜在的に有益ですが、重複コンテンツの別のソースになる可能性があります。これは、ユーザーが作成した投稿、広告、プロフィール ページなどを含むすべてのサイトに当てはまります。 多くの場合、ユーザーは、コピーしたテキストやスパム テキストを使用して数語しか書いていないか、プロファイル ページに自分の Web サイトへのリンクを追加するだけです。
これは決してコンテンツの重複の原因を網羅したリストではありませんが、どのタイプのコンテンツがサイトを危険にさらし、監視する必要があるかについてのアイデアを提供するはずです.
重複コンテンツを管理する方法
サイトの階層における重複ページの品質と役割に応じて、さまざまな方法で対処する必要がある場合があります。
オプションと、各ソリューションについて知っておくべきことは次のとおりです。
正規タグを使用する
Canonical タグは、特定のコンテンツのメイン バージョンを含み、インデックスを作成する必要があるページを検索エンジンに伝えます。
特定のページを特定の URL のコピーとして扱う必要があることを、正規化を通じて検索エンジンに通知できます。 検索エンジンによってこのページに適用されるリンク権限などのランキング シグナルは、指定された URL にクレジットされる必要があります。
canonical タグを実装すると、サーバー レベルではなくページに追加されるため、リダイレクトなどの他のソリューションよりも開発時間が短縮されます。 HTML の <head> セクションに canonical タグを必ず追加してください。<body> に配置すると、尊重されません。
通常、検索エンジン ボットは canonical ディレクティブに従いますが、場合によっては、それを無視して別の canonical ページを選択することがあります。 これは、検索エンジンが、より多くの内部リンクや信頼できるバックリンクなど、別の URL を指すより強いシグナルを検出した場合に発生する可能性があります。
リダイレクトを追加する
重複コンテンツに対処するためのもう 1 つの解決策は、非優先 URL から優先バージョンへのリダイレクトを実装することです。
URL を永続的にリダイレクトする場合は、301 リダイレクトを使用します。これは通常、重複コンテンツの管理に関しては最適なオプションです。

リダイレクトは、ランキング シグナルを 1 つの URLの下に統合するのに役立ちます。そのため、Google はターゲット ページのみをインデックスに登録する必要があります。
noindex タグを実装する
重複しており、検索エンジンでインデックス可能ではないが、ユーザーには表示されたままにする必要があるページに noindex タグを追加できます。
ただし、これらのページのクロールをブロックしないようにしてください。ブロックすると、ボットは noindex タグを認識できなくなります。
重複ページを削除
訪問者やビジネスにとって目的がなく、改善する予定がない場合は、重複ページを削除できます。
ステータス コードを 404 または 410 に変更することで、それらを削除できます。
両方のステータス コードの長期的な影響は同じです。 唯一の違いは、410 がインデックスからページを削除し、404 よりも高速にクロールを制限できることです。
重複コンテンツに対処するためのベスト プラクティス
潜在的な問題を解決するために、重複ページで考慮する必要がある側面を見ていきましょう。
重複ページをクロールするかどうかを決定する
検索エンジンが重複ページをクロールできるようにするかどうかを検討してください。 重複するコンテンツの種類と、それをどうするかによって大きく異なります。
ページにリダイレクトが含まれている場合、Google はそのページをクロールできる必要があります。 noindex タグを追加した場合も同様です。Google はページをクロールして noindex タグを検出し、それを追跡する必要があります。
また、独自のコンテンツを追加するなどして複製を改善した場合、Google はそのページをクロールして品質を再評価する必要があります。
サイトに価値を提供しない重複コンテンツがあり、それを変更できない場合は、 robots.txtに適切なディレクティブを実装して、検索エンジンのクロール機能を制限してください。
URL 構造を調整する
URL 構造に一貫性がないと、多くの重複コンテンツが発生する可能性があります。
注意すべき URL の側面は次のとおりです。
www と非 www または HTTP と HTTPS
サイトには、 example.comのように www なしでアクセスできるURL と、 www.example.comのように www を含む URL を介してアクセスできる URL がある場合があります。
プロトコルにも同じ問題があります。URL にはhttp://example.comまたはhttps://example.comを含めることができます。
最新の Web サイトのほとんどは、より安全な通信を提供するため、HTTPS を使用しています。 ただし、HTTP でアクセスできるページがまだいくつかある場合があります。 また、HTTPS に移行してサイトを HTTP からリダイレクトしなかった場合は、サイトの 2 つのバージョンを作成することもできます。
www を追加するかどうか、および使用するプロトコルに関係なく、一貫性があることを確認してください。
選択したパターンに従わない URL を発見した場合は、推奨されない方法に301 リダイレクトを実装して、推奨されるバージョンに誘導します。
小文字と大文字
Google はURL を大文字と小文字を区別して扱います。 したがって、Google の場合、 example.com /pageとexample.com/PAGEは 2 つの異なるページになります。
URL では小文字を使用するのが通例であるため、ユーザーが間違いなく入力しやすいようになっています。
ただし、大文字と小文字を区別せずに使用すると、同じコンテンツで異なる URL を作成できます。
そのようなものが見つかった場合は、大文字と小文字が適切なURL を選択し、間違ったバージョンをそれにリダイレクトします。
末尾のスラッシュ
末尾にスラッシュがある場合とない場合の同じ URL も、 example.comとexample.com/のように、異なるページとして表示されます。
繰り返しますが、同じ URL パターンに固執し、必要に応じて間違ったページにリダイレクトするようにしてください。
パラメータの追跡またはフィルタリング
通常、e コマース サイトでパラメーターをフィルター処理すると、ページが重複します。
多くのフィルターが使用可能な場合、それらをさまざまな組み合わせで選択して、同じまたはほぼ同一のコンテンツを持つ URL の山を生成できます。 この例はhttps://www.example.com/clothes/dresses?size=mediumです。
パラメータは追跡目的にも使用される傾向があり、これは重複コンテンツのもう 1 つの原因です。 たとえば、UTM パラメータを追加して、Twitter やニュースレターなどの特定のソースからの訪問を追跡できます。 以下に例を示します: https://example.com/page?utm_source=twitter 。
パラメータ化された URL をトラッキング パラメータのない URL バージョンに正規化する必要があります。
セッション ID
セッションには、Web 分析用の訪問者情報が保存される場合があります。この場合、Web サイトにアクセスする各ユーザーには、URL に保存された異なるセッション ID が割り当てられます。 https://example.com?sessionId=jsdfo74256sdfhのようになります。
訪問者がリクエストした各 URL にセッション ID が追加された場合、これらの URL のコンテンツは同じであるため、多数の重複ページが発生します。
セッション ID が追加された URL を、セッション ID が追加されていないURL に正規化します。
印刷専用 URL
別の URL にページの印刷用バージョンがあるということは、同じコンテンツの 2 つのバージョンがあることを意味します。たとえば、 https://www.example.com/page/とhttps://www.example.com/printです。 /ページ/ .
ページの印刷用バージョンから標準バージョンへの正規 URL を実装します。
コンテンツを最適化する
ページのコンテンツに注目することで、さらに調整を加えることができます。
肝心なのは、ランキングを上げてトラフィックを促進する価値のあるページがある場合は、特定のユーザーの意図をターゲットにした独自の高品質のコンテンツが含まれていることを確認することです。
時間とリソースを消費しますが、長期的には価値があります。
最適化で考慮すべきコンテンツの側面を次に示します。
商品ページの改善
メーカーの一般的な説明をコピーするのではなく、独自の製品説明を提供してください。
FAQは、製品やサービスに関する追加情報を含めるのに最適な場所です。 ただし、商品説明に記載されている詳細を正確に記載すると、部分的な内容の重複になる可能性があることに注意してください。
カテゴリーページの調整
各カテゴリ ページは一意で関連性がある必要があります。 カテゴリをブラウズして、それぞれが必要かどうかを考えてください。それらはユーザーにとってどの程度役立つでしょうか?
一部を削除するか、1 つに統合することを検討してください。 カテゴリで使用可能なフィルタリングまたは並べ替えオプションについても同じことを行います。
コンテンツを統合する
関連トピックについて説明している記事がいくつかある場合は、それらを 1 つの大きなコンテンツに統合して、最も包括的なバージョンにすることを検討してください。
このようにして、いくつかの URL に情報を分散させるのではなく、すべての情報を 1 か所で提供する有用なコンテンツを作成して、同様のページの数を最小限に抑えることができます。
また、同じ主題を対象とした平凡な記事が複数あるよりも、1 つの高品質の記事にランク付けする方がよい場合もあります。
補足コンテンツを作成する
ページをよりユニークで価値のあるものにし、インデックスに登録されて上位に表示される可能性を高める補足コンテンツを作成することを検討してください。 ユーザー エクスペリエンスの向上と、訪問者にとって何が最も役立つかを考えてください。
たとえば、求人情報を掲載した Web サイトがあるとします。
その場合、給与計算機を作成できます。 さまざまなタイプの契約の概要、各控除の説明、さまざまな形態の雇用の長所と短所の提供などによって、訪問者が求める可能性のある追加情報を提供できます。
コンテンツの少ないページをブラウズして、追加できるものがないか考えてください。
ただし、それらを改善できず、ユーザーに提供する価値が限られており、サイトにオーガニック トラフィックを誘導できない場合は、noindex タグを追加して、インデックスに登録されないようにすることをお勧めします。
ユーザー生成コンテンツの活用
ユーザーが作成した独自の包括的なコンテンツは、サイトにとって有益です。 たとえば、顧客にレビューを残してページに表示するように促すことができます。
レビューは、顧客が製品をどのように使用しているか、またはサービスをどのように使用しているかについての実際の説明を提供し、サイトを充実させることができます。
特に、製品ページは、製品に関する画像や特定の情報を含む、偏りのない詳細なレビューから利益を得ることができます.
サイトにレビューや広告を投稿するためにユーザーが書く必要がある最小文字数など、特定のメカニズムを実装することは、ユーザー生成コンテンツの内容が薄いまたは重複することを防ぐための優れたアプローチです。
国際的なコンテンツの提供を最適化する
サイトに同じコンテンツの言語バージョンがいくつかある場合、異なる言語バージョンは重複しているとは見なされません。
ただし、同じコンテンツを使用して、同じ言語を話す異なる地域の人々をターゲットにする場合は問題になる可能性があります。 たとえば、異なる英語バージョンのサイト (米国用、カナダ用、英国用など) に同じコンテンツを含めることができます。
同じコンテンツを異なる視聴者に提供している場合は、 hreflang タグを実装して、どの言語と国に到達しようとしているのかを Google に知らせます。
場合によっては、hreflang 属性が設定されている場合でも、Google がコンテンツを重複として分類し、2 つ以上のバージョンを単純にまとめることがあります。 多くの場合、これは重大な問題ではないかもしれませんが、ユーザー エクスペリエンスに悪影響を及ぼす可能性があります。
そのため、複数のページで同じコンテンツを表示することは避けてください。
特に戦略的な国際市場向けに、コンテンツのローカライズに努めてください。 ローカライズは翻訳するだけではありません。現地の語彙、慣習、通貨などを考慮して、ターゲットとする特定の国に適したものにする必要があります。
内部リンクの管理
URL の優先バージョンを決定したら、サイトの内部リンクをチェックし、それぞれが正しい URL バージョンを指していることを確認します。
コンテンツを正しくシンジケートする
コンテンツをシンジケートする場合、元のソースを正規として選択する必要があります。
同様に、別のサイトがあなたのコンテンツをシンジケートする場合は、元のコンテンツへのリンクを含め、正しい URL を指していることを確認してください。
ステージング環境へのアクセスを無効にする
ステージング環境またはテスト環境には、本番環境で使用できるサイトのコピーが含まれています。 したがって、検索エンジンに対してクロール可能またはインデックス可能であってはなりません。 ボットやユーザーによるアクセスを防ぐには、HTTP 認証を実装します。
内部検索結果ページをインデックス不可にする
内部検索結果を使用する訪問者は、ページのさまざまなバリエーションを表示し、通常は同一または類似の URL を表示します。
ボットがパスをたどってページを見つけてクロールできないように、内部検索結果ページにリンクしないようにしてください。
これらのページがインデックスに登録されないように、これらのページにnoindex タグを追加する必要があります。 ただし、ボットがこれらのページを過度にクロールしていることがわかった場合は、robots.txt ファイルでボットのアクセスを制限できます。
場合によっては、実際には内部検索ページの一部をインデックスに登録する必要があるかもしれませんが、それらの一部だけです。 ユーザーが Google でコンテンツをどのように探しているかを分析し、内部検索ページがユーザーの意図に完全に対応できることがわかった場合は、そのページを自由にインデックス可能にします。
CMS による重複コンテンツの問題を防ぐ
CMS プラットフォームは、重複するコンテンツに関する問題の共有を引き起こします。
たとえば、 WordPress はタグ ページとカテゴリ ページを自動的に生成します。 このようなページは、クローラーのリソースを著しく浪費する可能性があります。
WordPress はコメントのページ付けも作成します。ページ付けされたページには元のコンテンツが表示され、下部に異なるコメントのみが表示されます。
また、CMS が他のコンテンツを含まない画像用に別のページを作成する場合もあります。
不要なページに noindex タグを追加するか、CMS でこれらの機能を無効にします。
サイトの重複コンテンツの問題を見つける方法
コンテンツが複製されているかどうかを簡単に確認する方法がいくつかあります。
Copyscapeなどのツールを使用して、ページのどのコンテンツがウェブ全体に表示されるかを確認できます。

サイトの重複コンテンツの問題を調べるには、 Sitelinerを使用します。これは、サイトのページが他のページのコンテンツとどのように一致しているかを明らかにします。

Google のインデックス カバレッジ レポート
重複コンテンツの問題をより詳細に分析するには、 Google Search Console のインデックス カバレッジ レポートにアクセスしてください。特定の問題とその解決方法が表示されます。
重複したコンテンツに関連するインデックス作成の問題を示す次のエラーが表示されます。
ユーザーが選択した標準なしで複製
優先バージョンに正規化されていない重複 URL が見つかりました。 URL 検査ツールに移動すると、正規として選択された URL を確認できます。
この問題に対処するには、正規 URLを自分で選択することをお勧めします。
重複、Google はユーザーとは異なる標準を選択しました
Google は指定された正規 URL を無視し、より適切であると判断した別の URL を選択しました。
この問題は、指定されたコンテンツのメイン バージョンを表す指定された URL を指す十分な信号が Google で見つからなかったことを示しています。重複を修正する方法を確認してください。Google は user とは異なる canonical を選択しました。
重複して送信された URL が正規として選択されていません
このステータスは、正規 URL なしで URL を送信し、Google が送信された URL が重複していると見なしたため、別の正規 URL を選択したことを示します。
このステータスは Duplicate に似ていますが、Google はユーザーとは異なる canonical を選択しました。違いは、canonical URL を含めずにこれらの URL をインデックスに登録するよう Google に明示的にリクエストしたことです。
ここでも、優先 URL に canonical タグを追加する必要があります。
概要
重複したコンテンツが Google のペナルティにつながることはありませんが、Web 上でのサイトの成長を実質的に遅らせる可能性があります。
そのため、重複するページに注意し、実装を監視して、監督なしで多数のページを作成するメカニズムがないことを確認する必要があります。
ページに独自のコンテンツを作成し、URL の一貫性を確保し、必要に応じて canonical タグとリダイレクトを実装することは、Google がページを正しくインデックス付けしてランク付けするのに役立つ優れた方法です。
