Sitebulb サーバー – 強力な DIY エンタープライズ クローラーをセットアップするための技術的なヒントとコツ (予算内)

公開: 2022-09-26
Eメール
サイトバルブ サーバー

SEO 監査を実行する場合、クロールは非常に重要です。 SEO およびサイト所有者には、ローカル クローラーからエンタープライズ クローラー (SAAS サービス) まで、いくつかのオプションが用意されています。 私は、Screaming Frog、Sitebulb、DeepCrawl、そして最近では JetOctopus など、私のお気に入りのクロール ツールについて何年にもわたって声高に主張してきました。 通常、Screaming Frog と Sitebulb はローカル クローラーですが、DeepCrawl と JetOctopus は優れた強力なエンタープライズ クローラーです。

Screaming Frog と Sitebulb について言及するとき、ローカル クローラーを SAAS クローラーにハッキングする方法があるため、「通常はローカル クローラー」と言いました。 たとえば、いくつかの AWS サーバーを立ち上げ、それらに Screaming Frog と Sitebulb をインストールした後、リモートでクロールできるようになりました。 主な利点は、ローカル リソースを解放して他のことに集中できることです。その間、AWS サーバーはクロールに関する面倒な作業を行っています。

これはかなりうまくいきましたが、日曜大工のあなたのための新しい解決策があります。 これは Sitebulb Server と呼ばれ、現在ベータ版です。 私はそれを数か月間使用しており、ブログ投稿でいくつかのヒントとコツをカバーしたいと考えていました. 予算内でローカルからエンタープライズに移行できる強力なソリューションだと思います。

この投稿では、知っておく必要のあるすべてを網羅しているわけではないことに注意してください。 代わりに、それがどのように機能するか、いくつかの技術的なヒントとコツ、およびいくつかの注意事項について説明したかった. Sitebulb のチームが他の質問にもお答えできると確信しています (彼らは長年にわたって、このベータ版で非常に役に立ちました)。 何か問題が発生した場合は、いつでも Twitter で私に連絡してください。 それらの質問にすぐに答えることができれば、答えます。

Sitebulb サーバーとは正確には何ですか?
Sitebulb サーバーは、別のサーバーに Sitebulb の特別なバージョンをセットアップする方法です。これにより、ローカル リソースを行き詰まらせずにクロールを実行できます。 Sitebulb の標準バージョンでは、ほとんどのユーザーがローカル コンピューターで実行します。 それは問題ありませんが、間違いなくシステムが停止し、帯域幅が占有される可能性があります. Sitebulb Server では、すべてが別のサーバーで行われます。 次に、デスクトップで Sitebulb の特別なバージョンを使用してサーバーに接続できます。 これを行うと、ローカル マシンで実行したのと同じように監査にアクセスできます。 それができるのは素晴らしいことです。

別のリモート サーバーをいつでもセットアップして、Sitebulb (または Screaming Frog) を実行できることは前に述べました。 私はこれを何年も行ってきましたが、かなりうまく機能しています (ただし、複数のクロールを同時に実行することはできませんでした)。 さて、Sitebulb Server はリモート クローリング サーバーです、強化されています。 同時に複数のクロールを実行するように構築されており、独自のデスクトップ アプリからこれらのクロールのいずれかに接続できます。 さらに、複数のチーム メンバーが Sitebulb サーバーからこれらのクロールにアクセスできます。 そのため、監査に取り組んでいる SEO のチームがある場合、Sitebulb Server は、それらのチーム メンバー間でクロール データにアクセスするための強力な DIY ソリューションになる可能性があります。

リモート サーバー上のサイトを同時にクロールする機能は驚くべきものです。

Sitebulb Server を使用して複数のサイトをクロールする

どこからでもサーバーにアクセスして、ローカル マシンにあるようにクロール データを監査できます。

Sitebulb サーバー経由でどこからでもクロール データにアクセス

最大の障害 IMO – 恐ろしく、紛らわしく、謎めいた、しかししばしば簡単なサーバーのセットアップ。
これはすべて素晴らしいですね。 しかし、飛び越えなければならない最大の障害やフープは何ですか? 間違いなく、それはサーバーのセットアップです。 Screaming Frog と Sitebulb の独自のバージョンを実行するために AWS インスタンスを最初にセットアップしたときに、これに遭遇しました。 これは、多くの SEO 担当者やサイト所有者がよく知らない不可解なプロセスです。 必ずしも難しいわけではありませんが、私の意見では間違いなく障害です。 多くの SEO がクロール用に別のサーバーをセットアップしていないことがわかりました。また、それらをセットアップしようとしたときに問題が発生したことも知っています。

さて、救助へのSitebulb。 Sitebulb の Patrick と Gareth は、Sitebulb サーバーのセットアップ、リモート サーバー (AWS および Google Cloud Compute を含む) のセットアップ方法などに関する優れたドキュメントを作成しました。 ビデオクリップも含まれているヘルプドキュメントで詳細を読むことができます(リモートサーバーをセットアップしようとしているときに驚くべきものです). 1 枚の写真が千の言葉に値する場合があります。

たとえば、AWS 経由で Sitebulb サーバーをセットアップするために Sitebulb がまとめたビデオ クリップを次に示します。

注意してください、私は個人的に AWS を使用しており、それはうまく機能していますが、必要なセットアップを使用できます。 専用サーバー、AWS、Google クラウド コンピューティング、ローカル ネットワーク上の予備のコンピューターなどを使用できます。サーバーをセットアップすると、通常はそれほど時間はかかりません。次に、Sitebulb サーバーとサーバーに接続する Sitebulb の特別なデスクトップ バージョン。

ディスク容量と vCPU: サーバーに関するいくつかの重要なポイント。
サーバーをセットアップするときは、十分なディスク容量と十分な vCPU (または仮想 CPU) があることを確認することが重要です。 これらは、保存できるクロール データの量と、クロール時に使用できるスレッドの数に影響します。

まず、クロールは多くのスペースを占有します。 また、エンタープライズ クロールは大量のスペースを占有します。 通常実行するクロールの種類に基づいて、十分なディスク容量を選択してください。 以下は、ストレージを構成するための AWS のスクリーンショットです。

AWS で Sitebulb サーバーをセットアップするときのディスク ストレージの構成

次は vCPU (または仮想 CPU) です。 各 vCPU がスレッドであることを理解することが重要です。 したがって、クロールが 5 つのスレッドを使用する場合、5 つの vCPU が必要になります。 さらに、サーバーに接続すると、スレッドも使用されます。 また、同時に複数のクロールを実行する場合は、それも考慮する必要があります (さらに多くのスレッド)。 以下では、AWS インスタンスに 8 個の vCPU (Sitebulb サーバーの場合は 8 個のスレッド) があることがわかります。

AWS で Sitebulb サーバーをセットアップするときに vCPU の数を選択する

たとえば、それぞれ 5 つのスレッドを使用して 2 つのクロールを実行し、サーバーに接続している場合、11 スレッド (5 + 5 + 1) が必要になります。 これについていくつか質問がありましたが、Patrick は素晴らしい情報を提供してくれました。 Sitebulb のチームは豊富な知識を持っており、顧客のサポートに優れています。 したがって、まずドキュメントを確認してください。 それでも答えが見つからない場合は、最善の解決策を見つけるのに役立つと確信しています。

クロールを同時に実行することと、クロールをキューに入れることに関する注意事項。
もう 1 つの混乱点は、同時クロールの実行についてです。 つまり、これが同時に複数のクロールを実行する方法です。 これは通常、エンタープライズ クローラー専用に予約されているものですが、Sitebulb Server を介して実行できるようになりました。

まず、サーバーをセットアップするときに、同時クロールを実行するためのオプションを確認してください。 それはサーバー設定セクションにあります。

Sitebulb サーバーで同時監査を確認する

次に、「同時キュー タイプ」が正しく設定されていることを確認します。 これは、「先入れ先出し」ではなく、「使用可能なスレッドに基づいて次へ」に設定する必要があります。 「先入れ先出し」に設定した場合、各クロールは個別に (そして順番に) 実行されます。 「同時キュー タイプ」を使用すると、十分なスレッドがある限りクロールを同時に実行できます (これについては、以前の私のコメントを参照してください)。

Sitebulb Server で同時キュー タイプを設定する

また、「予約済みスレッド」の場合、設定する数は、同時にサーバーにアクセスするチーム メンバーの数に基づいています。 個人のコンサルタントの場合は、1 つだけ設定できます。 同時にサーバーにアクセスするチームメイトが他に 2 人いる場合は、それを 3 に設定する必要があります (あなたとチームメイト 2 人)。

Sitebulb サーバーで予約スレッドを設定する

AWS を停止して再起動すると IP アドレスが変更される
もう 1 つの紛らわしいトピックは、IP アドレスと AWS インスタンスに関連しています。 サーバーが使用されているときに料金が発生するため、通常、使用されていないときにそのインスタンスを停止する必要があります。 そうでない場合、コストが急増し始める可能性があります。 しかし、ここに問題があります。 AWS インスタンスを停止して再起動すると、サーバーは新しい IP アドレスを取得します。 その IP アドレスは、Sitebulb デスクトップ アプリを Sitebulb サーバーに接続するときに使用するものです。 また、リモート デスクトップ経由でそのサーバーに接続するときにも使用します (サーバーをリモートで管理するため)。

したがって、Sitebulb デスクトップの設定にすばやくアクセスして、サーバーの IP アドレスを変更する必要があります。 時間はかからず、難しくもありませんが、そうしなければならないことを知らなければ、混乱を招く可能性があります。 基本的に、正しい IP アドレスが使用されない限り、Sitebulb サーバーに接続することはできません。

AWS サーバーの停止と再起動後の IP アドレスの変更

また、リモート デスクトップ経由で接続する場合は、その IP アドレスを変更する必要があることにも注意してください。 そうでない場合、接続は失敗します。 リモート デスクトップを使用して、サーバーをリモートで管理します (ソフトウェアのインストールなど)。

リモート デスクトップ経由で新しい IP アドレスを追加する

1 つのデスクトップ Sitebulb セットアップから複数の Sitebulb サーバーに接続します。
Sitebulb Server のもう 1 つの優れた機能は、1 つのデスクトップ設定から複数のサーバーに接続できることです。 したがって、同時に多くのクロールを実行する必要があるため、複数の Sitebulb サーバーが必要な場合は、それを行うことができます。 複数の AWS サーバーまたは専用サーバーを起動し、それらに Sitebulb サーバーをセットアップして、デスクトップ アプリからそれらのサーバーに接続するだけです。 Sitebulb Server は、その面で非常にスケーラブルです。

Sitebulb Server に複数のサーバーを追加する
Sitebulb Server に新しいサーバーを登録する

重要: サーバーのネットワーク ポートを開きます。
OK、Sitebulb Server をセットアップするときにこの問題に遭遇したので、他の人もきっとそうするでしょう。 Sitebulb のドキュメントにもこれが記載されているので、独自のサーバーをセットアップするときに見逃さないことを願っています。 とはいえ、大事なことなのでここで取り上げたいと思います。

Sitebulb サーバーを適切に実行するには、おそらくサーバー ファイアウォールでネットワーク ポートを開く必要があります。 通常、ネットワーク ポートは既定で閉じられているため、サーバーでポート 10401 を開くようにファイアウォール ポリシーを作成する必要があります。 どこに行ってどのように行うかを知っていれば簡単に行うことができますが、多くの人は設定を見逃す可能性があると思います. Sitebulb のビデオ チュートリアルでは、この手順について詳しく説明しているため、ここではホイールを再作成しません。 繰り返しになりますが、実行することが重要です。

AWS 経由で Sitebulb サーバーをセットアップするときにネットワーク ポートを開く

Sitebulb サーバー – ローカル セットアップを停止させることなくエンタープライズ クロールを実行するための強力なオプションです。
繰り返しますが、この投稿で Sitebulb Server のすべてを網羅しようとはしませんでした。 代わりに、SEO やサイト所有者が Sitebulb Server をセットアップして実行する際に遭遇する可能性のある技術的なヒントやコツを取り上げたいと思いました (過去数か月の Sitebulb Server の使用に基づく)。 個人的には、予算内でエンタープライズ クロールを実行するには、Sitebulb Server が強力なソリューションであることがわかりました。 そして、あなたもそうだと思います。 Sitebulb の Patrick と Gareth に連絡して、Sitebulb Server を試すために利用できるオプションの詳細を確認することをお勧めします。

GG