サイトマップで避けるべき5つの間違い

公開: 2022-03-15

Googleでインデックスに登録されている特定のサイトのページ数を確認できるツールを作成しました

これまでに数百のWebサイトをチェックし、このツールは、クロール予算やインデックス作成に関連する問題など、クライアントが対処しているSEOの問題を診断するのに役立ちました。

これらの問題を調査するときにデータの異常に遭遇することがよくあり、サイトマップに重大な間違いがある多くのWebサイトがあります。

これはあなたのウェブサイトにどのように影響しますか?

サイトマップが適切に実装されていない場合、Googlebotは低品質のURLのクロールに多くの時間を費やす可能性があり、これはクロール予算の無駄です。 その結果、ウェブサイト上の多くの貴重なURLは、クロールするのに十分なリソースがないため、Googleでインデックスに登録されない可能性があります。

人気のあるウェブサイトがサイトマップで犯している間違いは何ですか。また、Googleが無関係なコンテンツにクロール予算を浪費していないことを確認するために、どのようにそれらを回避しますか?

掘り下げてみましょう。

内容を隠す
1クロール予算はいくらですか?
2クロール予算にとってサイトマップはどのように重要ですか。
3サイトマップで避けるべき間違いは何ですか?
3.1不正な形式のURLの送信
3.1.1 Whisky.de
3.2シンコンテンツURLの送信
3.2.1 AnnTaylor
3.3貴重なURLをスキップする
3.3.1 GoodReads
3.4 <lastmod>パラメーターの使いすぎ
3.4.1エイボン
3.5サイトマップ内のステージング環境へのリンク
3.5.1 Acehardware.com
サイトマップで従うべき4つのベストプラクティス
5まとめ

クロール予算はいくらですか?

まず、クロール予算とは何か、そしてそれがWebサイトのインデックス作成にどの程度関連しているかを説明します。

Googleは多くのコンテンツをクロールできますが、そのリソースは無限ではありません。そのため、Googleが持っているリソースを選択する必要があります。

そのため、Googlebotは、すべてのウェブサイトのクロール予算、つまりクロールできるURLとクロールするURLの数を定義しています。

サイトのクロール予算は、の2つの指標によって異なります

  • クロール容量の制限–サーバーの制限を超えることなくWebサイト上のすべての重要なコンテンツをクロールするために計算されます–そして、
  • クロール需要– Webサイトのサイズ、人気、および更新頻度によって決まります。

サイトの速度が低下したり、サーバーエラーで応答したりすると、制限が下がり、Googlebotのクロールが少なくなります。
出典: Googleのドキュメント

Googlebotの機能には制限があるため、GooglebotがウェブサイトでクロールするURLを計画する必要があります。

クロールされるURLを調整するための鍵は、Googleのドキュメントで説明されています。

URLインベントリの管理:適切なツールを使用して、クロールするページとクロールしないページをGoogleに指示します。 Googleがインデックスに適さないURLのクロールに多くの時間を費やしている場合、Googlebotは、サイトの残りの部分を調べる価値がないと判断する可能性があります。
出典: Googleのドキュメント

要約すると、これまでにわかっていることは次のとおりです。

  • あなたのウェブサイトが遅い場合、グーグルはより少ないURLをクロールするかもしれません、それ故に、より少ないURLがグーグルのインデックスに入るでしょう、
  • Googleがサイトをクロールするときに低品質のURLを多数検出できる場合、サイトの全体的な品質が低いと判断する可能性があります。

重要なポイントは次のとおりです。

Googleがクロールするための低品質のURLが大量にあるため、Googlebotはそれらをクロールするのに多くの時間を失い、Webサイト上の多くの高品質のURLをクロールできない可能性があります。

これは、トラフィックを引き付けるために頻繁かつ広範囲にクロールする必要があるため、大規模または急速に変化するWebサイトにとって最も重要です。

クロール予算にとってサイトマップはどのように重要ですか?

説明したように、クロール予算の最適化は、サイトのインデックス作成にとって非常に重要なステップです。

URLインベントリを管理する方法の1つは、十分に最適化されたサイトマップを作成して維持することです  

サイトマップは、サイト上のページ、ビデオ、その他のファイル、およびそれらの間の関係に関する情報を提供するファイルです[…]。 サイトマップは、サイトで重要と思われるページとファイルをGoogleに通知し、これらのファイルに関する貴重な情報も提供します。 たとえば、ページが最後に更新された日時や、ページの代替言語バージョン。
出典: Googleのドキュメント

ただし、多くのWebサイトでは、十分に最適化されたサイトマップを作成できません。 幸いなことに、私たちは彼らの過ちから学ぶことができます。

サイトマップで避けるべき間違いは何ですか?

多くの人気のあるサイトを分析したところ、多くのサイトがサイトマップに誤りを犯しており、クロール予算に悪影響を及ぼしており、インデックスの適用範囲に問題が生じる可能性があることがわかりました。

サイトマップを作成するときに避けるべき間違いの内訳は次のとおりです。

  1. 不正な形式のURLを送信する

私が発見した間違いの1つは、サイトマップのURLの構造に関するものでした。  

具体的な例を見て分析してみましょう。

Whisky.de

私たちのソフトウェアによって収集された統計を見たとき、私は驚いた。それは、サイトマップで提出されたwhisky.deのページの0%がGoogleで索引付けされていることを示した。

私はこれが真実ではないことを知っていたので、データをさらに調査しました。

whisky.deのサイトマップのほとんどのURLは有効であるように見えました:

  • 彼らは標準的でした、
  • それらはnoindexrobotsメタタグによってブロックされませんでした、
  • robots.txtのdisallowディレクティブによってブロックされていません。
  • 彼らは200のステータスコードで応答していました。

しかし、その後、トップレベルドメインの後にすべてのURLに二重スラッシュが付いていることに気付きました。このサンプルを見てください。

  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaessern.html
  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
  • https://www.whisky.de//presse/pressespiegel/playboy.html

二重スラッシュは、サイトマップを生成する際の明らかなプログラム上の間違いのようであり、修正が簡単です。

ただし、サイトマップに含まれるページには、それぞれのURLを指す正規のタグがあります。正しいバージョンにはスラッシュが1つ付いています。

その結果、 Googleが意図した2倍のURL(シングルスラッシュとダブルスラッシュを含むURL)にアクセスしている可能性が高くなります。

GoogleにはURLの誤ったパターンを見つけるメカニズムがあり、技術的に言えば、Googleが間違いを見つけた可能性があります。 したがって、それに応じてwhisky.deをクロールし、正しく構造化されたURLにインデックスを付けることができます。 ただし、ウェブサイトのGoogle検索コンソールアカウントまたはサーバーログにアクセスせずに確認する方法はありません。

実際には、間違いを修正するためにGoogleのアルゴリズムに依存するべきではありません。私が説明したような手法は、クロール予算に負担をかけ、ページをGoogleのインデックスから除外することさえできます。

シンコンテンツURLの送信

サイトマップに薄いコンテンツページを含むWebサイトの疫病があります

例を示しましょう。

アンテイラー

私はこの間違いを、婦人服を扱う一流店であるAnnTaylor.comで発見しました。

Googleでインデックスに登録されている商品カテゴリの数を確認したかったので、カテゴリページ専用のサイトマップを調査しました。

最初のチェックでは、カテゴリページの46%のみがGoogleでインデックスに登録されていることが示されました。

それで、私はこれをより詳細に調べて、彼らのカテゴリーページのほとんどがソフト404であることを学びました。

具体的には、これらのページに次のメッセージが表示されました。

アンテイラー製品結果なし

グーグルがそれらを索引付けしたくなかったのは当然のことでした!

次の論理的なステップは、サンプルからソフト404を除外することでした。 そのために、同じサイトマップのインデックス作成ステータスを確認しましたが、上の画像に示すように、「スタイリッシュに検索しましたが、運がありません」というフレーズを含むページを除外するトリガーを使用しました。

ソフト404URLを除外した後、カテゴリサイトマップのページの82%がインデックスに登録されていることが判明しました。  

それでも、カテゴリページの18%はGoogleでインデックスに登録されていません。これは、SEOが調査に集中する必要があるものです。

AnnTaylorの状況は、次の理由で深刻です。

  • まず第一に、Googleはシンコンテンツのクロールにクロール予算を浪費しています。
  • さらに、Googleがページ、セクション、サイト全体の3つのレベルで品質を判断することは謎ではありません。 Googleは、一般的にカテゴリページの品質が低く、すべてのページのインデックスが解除される可能性があると判断する場合があります 過去に、私の記事の1つで説明したように、Giphy、Instagram、PinterestなどのWebサイトで発生していましたそれがAnnTaylorに起こらないことを願いましょう。

貴重なURLをスキップする

すでに述べたように、サイトマップはGoogleがあなたのウェブサイトをよりよく理解し、よりインテリジェントにクロールするのに役立ちます。

ただし、多くのWebサイトで最も価値のあるURLがサイトマップに含まれていないことに気付きました。

これが一例です。

GoodReads

GoodReadsの一般的なサンプル(サイトマップのすべてのURLから取得)を確認したところ、そのうちの35%だけがインデックスに登録されていることがわかりました。

とても質の高いウェブサイトだと知ってびっくりしました。 GoodReadsにアクセスしてレビューを読んだり、特定の本を読む価値があるかどうかを調べたりするのは私だけではないことを私は知っています。

次に、チェックしたサンプルに、書籍が含まれているURLが含まれていないことを確認しました。 そこで、すべてのサイトマップをダウンロードすることにしました。

結果:サイトマップに本を含むURLはありません。  

なぜそれは悪い兆候ですか?

Googleがサイトマップで見つかったURLを優先し、どういうわけか製品ページへのアクセスをスキップするリスクがあります。

免責事項:GoodReadsは私たちのクライアントではありません。 したがって、技術的に言えば、Google検索コンソールにプライベートサイトマップが送信されている可能性があります。

<lastmod>パラメーターの乱用

サイトマップファイルに含めることができるパラメータの1つは、ページが最後に更新された時刻を指定する<lastmod>です。 このようにして、Googleは最近変更されたURLを簡単に選択できます。

ただし、一部のWebサイトではこの手法を使いすぎています。 また、 Googleのガイドラインを読んでいるように、 Googleは<lastmod>値が一貫して検証可能である場合(たとえば、ページの最後の変更と比較して)正確である場合、それを使用するため、悪影響を与える可能性があります。」

<lastmod>パラメーターを使いすぎているサイトの例を見てみましょう。

エイボン

エイボンの製品サイトマップを調べたところ、リストされているすべてのURLに同じ<lastmod>パラメーターがあります–現在の日:

<lastmod>の日付を現在の日として表示するサイトマップ

エイボンのURLのすべてが毎日変更されるわけではないと想定するのは安全あるため、Googleはそのページのインデックスを作成することを躊躇しています。

サイトマップ内のステージング環境へのリンク

GoogleがステージングURLのインデックスを作成することは非常に一般的です。  

通常、Googleがそのようなページへのリンクを見つける方法は謎です。 しかし、一般的な説明は、これらのURLがサイトマップから直接リンクされているというものです。

Acehardware.com

その後、acehardware.comがサイトマップを更新し、以下の間違いに対処していることに注意してください。

これが私が最初にチェックしたサンプルです。

ご覧のとおり、サイトマップからステージングサイトにリンクしていることがわかりました

サイトマップ内のステージングサイトへのリンク

ステージング環境をサイトマップに含めるのはなぜ悪いのですか?

  1. Googleは不要なURLをクロールします。
  2. ステージングURLがインデックスに登録されている場合、特定の情報を探しているユーザーを混乱させ、検索結果でそれらを見つけます。

サイトマップで従うべきベストプラクティス

Webサイトのサイトマップを作成および管理するときに避けるべきことの概要を説明しました。

さて、あなたが従うべきいくつかの慣行は何ですか?

これが私がお勧めするいくつかのベストプラクティスです:

サイトマップに正規のURLのみを含めます。

–サイトマップの最大サイズは50,000URLである必要があります。 URLが多い場合は、それらを小さなサイトマップに分割できます。

サイトマップにURLのセッションIDを含めないでください–このようにして、指定されたURLの重複クロールを減らすことができます。

–一貫性のある完全なURLを使用する–相対URLではなく絶対URLを含める。

前述したように、サイトマップに貴重なURLのみが含まれていることを確認してください。 ウェブサイト全体のクロールを実行して、クロールで見つかったURLがサイトマップから欠落していないかどうかを確認できます。

これは、サイトマップの最適化に関する氷山の一角にすぎません。詳細な推奨事項については、 XMLサイトマップの究極のガイドをお読みください。  

まとめ

サイトマップはすべてのウェブサイトにとって価値があります。

しかし、私がリストしたサイトの例からわかるように、多くの人気のあるWebサイトには最適化されたサイトマップがなく、コストがかかります。それらのインデックスカバレッジは大きな影響を受けます。

また、サイトマップでのSEOの間違いは、クロールの予算に悪影響を与える可能性があることに注意してください。これは、中規模または大規模のWebサイトを使用している場合に重要です。

避けるべき間違いを理解し、Googleがサイトをより効率的にクロールし、インデックスカバレッジを改善するのに役立つサイトマップを作成できるようになることを願っています。