ウェブサイトのコンテンツスクレーパーと戦う方法

公開: 2022-02-21

コンテンツがユニークで、よく書かれていて、有用であることを確認するために時間を費やすウェブマスターは、コンテンツが削られて別のWebサイトに表示されていることに気付くと、苦痛を感じます。スクレーパーはウェブ上でビジネスを行うことのほんの一部であり、ウェブマスターがそれを止めるためにできることはあまりありません。しかし、あなたはそれと戦い、検索エンジンであなたのサイトのユニークな価値を維持するためにいくつかの巧妙なステップを踏むことができます。

 ここから無料でアフィリエイトマーケタートレーニングを始めましょう！

チャレンジ

スクレーパーをブロックする方法はいくつかありますが、正当な検索エンジンのクローラーをブロックする方法もあります。ウェブマスターにとっての課題は、サイトをスクレーパーにやさしくしつつ、検索エンジンにやさしいままにすることです。スクレーパーをブロックするものは一般に検索エンジンもブロックするため、これは簡単な作業ではありません。

たとえば、スクレーパーを完全にブロックする1つの方法は、コンテンツを画像に変換することです。これはスクレーパーと戦うのに最適ですが、サイトを完全にSEOに適したものにしません。検索エンジンはコンテンツを解析および読み取ることができないため、ランクが下がる可能性があります。検索エンジンは依然としてテキストベースであるため、画像を正しく理解して読み取ることができません。

スクレーパーとボットは同じように機能するため、SEOとランキングを損なうことなくスクレーパーをブロックする方法を作成することは困難です。方法を選択するときは、賢明に選択してください。メソッドをテストしても、検索エンジンのボットに影響を与える場合は、悪影響を与える可能性があります。正当なボットをブロックしないことがわかっている場合を除いて、大規模な構造変更を実行しないでください。

コンテンツスクレーパーと戦うことができるが、サイト検索エンジンのクローラーを使いやすくする3つの方法があります。

オンラインで成功するために必要なすべてのものを入手するには、ここをクリックしてください

ページにCanonicalを設定する

カノニカルは、重複コンテンツのインデックスを作成するときに、Googleアルゴリズムに強力な提案を提供します。カノニカルは基本的に「これは重複コンテンツです。代わりに、このURLにインデックスを付けてください。」「このURL」はあなたのサイトのページです。

スクレーパーがコンテンツを盗むと、リンクタグを含むHTMLタグ内のすべてのコンテンツが取得されます。その結果、カノニカルがスクレーパーのページに設定されます。 Googleがスクレーパーサイトをクロールすると、正規のページを読み取り、スクレーパーのページのインデックスを解除して、自分のページを保持します。現在のページを指す正規リンクがあっても、Googleインデックスのステータスには影響しないため、ローカルページで問題が発生することを心配する必要はありません。

この手法は通常はうまく機能しますが、いくつかの問題があります。まず、スクレーパーの所有者がカノニカルが含まれていることを理解すると、カノニカルを取り除くことができます。第二に、カノニカルはグーグルへの提案です。検索エンジンのアルゴリズムは通常、正規を受け入れてインデックス作成に使用しますが、これは保証ではありません。グーグルがスクレーパーページを指している強い信号を見るならば、それはそれらを索引付けし続けるかもしれません。ただし、これはまれです。強力なシグナルには、リンク、大量のトラフィック、ページの人気などがあります。

以下は正規リンクコードです。

絶対URLが必要であることに注意してください。これは、プロトコル（HTTP）、ドメイン名（yoursite.com）、およびページ名を含めることを意味します。このコードを各コンテンツページに含めます。

リンクに絶対URLを使用する

リンクURLには、絶対と相対の2種類があります。アブソリュートは前のセクションのリンクのように見えます。これには、プロトコル、ドメイン、およびページ名が含まれます。

相対リンクは、ディレクトリとページ名のみを使用します。次に例を示します。

絶対URL

相対URL

スクレーパーがコンテンツを盗むと、すべてのコンテンツとサイト構造がスクレイプされます。相対URLを使用すると、スクレーパーサイトのリンクが機能します。絶対URLを使用する場合、これらのリンクは独自のドメインを指します。スクレーパーは、すべてのリンクからドメインを削除する必要があります。そうしないと、すべてがサイトを指します。これは、実際にはリンクグラフに役立ちます。スクレーパーの所有者がコードを記述できない限り、スクリプトを編集しない限り、スクレーパーの所有者はコンテンツを使用できません。

オンラインで成功するために必要なすべてのものを入手するには、ここをクリックしてください

ハニーポットを作成する

ハニーポットは、企業がハッカーを引き付けるために使用するおとりです。それらは実際のサーバーまたはシステムを模倣し、ハッカーが脆弱性を見つけることを可能にします。ハニーポットの利点は、ハッカーがシステムに侵入したときにイベントをログに記録することです。また、ハッカーを重要なシステムから引き離します。

Webサーバー上に同様のシステムを作成できます。必要なのは1つのファイルを作成することだけです。空のHTMLファイルを作成し、Webサーバーにアップロードします。たとえば、ファイルに「honey.html」という名前を付けて、Webサーバーに配置します。ファイルをrobots.txtに追加して、ロボットによるクロールを停止します。クローラーはrobots.txtディレクティブを尊重するため、robots.txtファイルでページがブロックされている場合はページをクロールしません。

次に、サイトのアクティブなページの1つにhoney.htmlページへの非表示のリンクを配置します。「display：none」CSSdivでリンクを非表示にできます。次のコードは例です。

上記のコードはクローラーとスクレーパーには表示されますが、通常の訪問者には表示されません。

このトリックが行うことは、トラフィックを1つのファイルに向けることです。正当なブロックはrobots.txtを尊重しますが、スクレイプは尊重しないため、IPがページをクロールしているのを確認できます。 Webサイトのトラフィックをログに記録する必要があるため、honey.htmlをクロールするIPアドレスを手動で確認してください。 GoogleやBingなどの正規のボットはページをクロールしませんが、スクレーパーはクロールします。スクレーパーIPを見つけて、Webサーバーまたはファイアウォールでブロックします。問題が発生して正当なトラフィックがページを見つけた場合に備えて、IPをブロックする前にIPを確認する必要があります。

スクレーパーはあなたのウェブサイトを決して上回ってはいけません

サイトによるコンテンツの取得を完全にブロックすることはできません。結局のところ、悪意のあるサイト所有者は手動でサイトのコンテンツをコピーすることができます。ただし、スクレーパーサイトがあなたのサイトを上回ってはいけません。スクレーパーがあなた自身のサイトを上回っている最も可能性の高い原因はあなた自身のSEOの問題です。

グーグルはウェブサイトをランク付けする何百もの要因を持っているので、どの要因があなたのサイトに影響を及ぼしているのかを知ることは困難です。確認できる内容の内訳は次のとおりです。

あなたのコンテンツはユニークで、便利で、ユーザーのために書かれていますか？
あなたまたはコンサルタントは、リンク構築を実行しましたか？
あなたのコンテンツは信頼できますか？
低品質のページはnoindexに設定されていますか？
ユーザーがコンテンツや製品を見つけるためのナビゲーションは簡単ですか？

これらは確認できるいくつかの問題ですが、サイトをより徹底的に監査するには専門家が必要になる場合があります。

幸いなことに、スクレーパーは通常、Googleのペナルティやスクレーパーサイトのホストへの苦情からすぐに消滅します。あなたの前にスクレーパーのランキングが表示されている場合は、これらの手順を実行してそれらを停止し、時間をかけてサイトの品質を確認してください。