Sitebulb Server – Technische Tipps und Tricks zum Einrichten eines leistungsstarken DIY-Enterprise-Crawlers (mit kleinem Budget)

Veröffentlicht: 2022-09-26
Email
Sitebulb-Server

Bei der Durchführung von SEO-Audits ist Crawling äußerst wichtig. Für SEOs und Websitebesitzer stehen mehrere Optionen zur Verfügung, von lokalen Crawlern bis hin zu Enterprise-Crawlern (SAAS-Dienste). Ich habe mich im Laufe der Jahre sehr lautstark über meine bevorzugten Crawling-Tools geäußert, nämlich Screaming Frog, Sitebulb, DeepCrawl und in jüngerer Zeit JetOctopus. Screaming Frog und Sitebulb sind typischerweise lokale Crawler, während DeepCrawl und JetOctopus hervorragende und leistungsstarke Enterprise-Crawler sind.

Als ich mich auf Screaming Frog und Sitebulb bezog, sagte ich „normalerweise lokale Crawler“, da es Möglichkeiten gibt, einen lokalen Crawler in einen SAAS-Crawler zu hacken. Ich habe zum Beispiel mehrere AWS-Server hochgefahren, Screaming Frog und Sitebulb darauf installiert und kann dann aus der Ferne crawlen. Der Hauptvorteil besteht darin, dass ich meine lokalen Ressourcen entlaste, um mich auf andere Dinge zu konzentrieren, während meine AWS-Server die schwere Arbeit beim Crawling erledigen.

Das hat ganz gut funktioniert, aber es gibt eine neue Lösung für Sie Do-It-Yourself'er. Es heißt Sitebulb Server und befindet sich derzeit in der Beta-Phase. Ich benutze es seit mehreren Monaten und wollte einige Tipps und Tricks in einem Blogbeitrag behandeln. Ich denke, es ist eine leistungsstarke Lösung, die Sie mit kleinem Budget von lokal zu Unternehmen bringen kann.

Beachten Sie, dass ich in diesem Beitrag nicht alles behandeln werde, was Sie wissen müssen. Stattdessen wollte ich behandeln, wie es funktioniert, einige technische Tipps und Tricks und einige Vorsichtsmaßnahmen. Ich bin mir sicher, dass das Team von Sitebulb alle anderen Fragen beantworten kann, die Sie haben (sie waren im Laufe der Jahre und mit dieser Beta super hilfreich). Und Sie können mich jederzeit auf Twitter anpingen, wenn Sie auf Probleme stoßen. Wenn ich diese Fragen schnell beantworten kann, werde ich es tun.

Was ist Sitebulb Server genau?
Sitebulb Server ist eine Möglichkeit für Sie, eine spezielle Version von Sitebulb auf einem separaten Server einzurichten, der Crawls ausführen kann, ohne Ihre lokalen Ressourcen zu belasten. Mit der Standardversion von Sitebulb führen die meisten Benutzer es auf ihren lokalen Computern aus. Das ist in Ordnung, aber es kann Ihr System definitiv blockieren und Bandbreite beanspruchen. Mit Sitebulb Server passiert das alles auf einem separaten Server. Dann können Sie eine spezielle Version von Sitebulb auf Ihrem Desktop verwenden, um sich mit Ihrem Server zu verbinden. Und wenn Sie das tun, können Sie auf die Audits zugreifen, als ob Sie sie auf Ihrem lokalen Computer ausgeführt hätten. Es ist großartig, das tun zu können.

Ich habe bereits erwähnt, dass Sie jederzeit einen separaten Remote-Server einrichten und Sitebulb (oder Screaming Frog) ausführen können. Ich mache das seit Jahren und es funktioniert ziemlich gut (obwohl Sie nicht mehrere Crawls gleichzeitig ausführen können). Nun, Sitebulb Server ist ein Remote-Crawling-Server, aber auf Steroiden . Es wurde entwickelt, um mehrere Crawls gleichzeitig auszuführen, während Sie von Ihrer eigenen Desktop-App aus eine Verbindung zu jedem dieser Crawls herstellen können. Darüber hinaus können mehrere Teammitglieder von Sitebulb Server aus auf diese Crawls zugreifen. Wenn Sie also ein Team von SEOs haben, die an einem Audit arbeiten, kann Sitebulb Server eine starke DIY-Lösung für den Zugriff auf Crawl-Daten dieser Teammitglieder sein.

Die Möglichkeit, Websites gleichzeitig auf einem Remote-Server zu crawlen, ist erstaunlich:

Crawlen Sie mehrere Websites mit Sitebulb Server

Sie können von überall auf Ihren Server zugreifen, um die Crawling-Daten so zu prüfen, als ob sie sich auf Ihrem lokalen Computer befänden:

Greifen Sie über Sitebulb Server von überall auf Crawl-Daten zu

Das größte Hindernis meiner Meinung nach – Das beängstigende, verwirrende, kryptische, aber oft einfache Server-Setup.
Das klingt alles großartig, oder? Aber was ist das größte Hindernis oder der größte Reifen, durch den Sie springen müssen? Zweifellos liegt es am Server-Setup. Ich bin darauf gestoßen, als ich zum ersten Mal AWS-Instanzen eingerichtet habe, um ihre eigenen Versionen von Screaming Frog und Sitebulb auszuführen. Es ist ein kryptischer Prozess, mit dem viele SEOs und Websitebesitzer nicht vertraut sind. Es ist nicht unbedingt schwer, aber meiner Meinung nach definitiv ein Hindernis. Ich finde, dass viele SEOs keine separaten Server für das Crawlen eingerichtet haben, und ich kenne eine Anzahl, die beim Versuch, sie einzurichten, in Schwierigkeiten geraten ist.

Nun, Sitebulb zur Rettung. Patrick und Gareth von Sitebulb haben eine hervorragende Dokumentation zum Einrichten von Sitebulb Server, zum Einrichten von Remote-Servern (einschließlich AWS und Google Cloud Compute) und mehr erstellt. Sie können mehr in ihrer Hilfedokumentation lesen, die auch Videoclips enthält (die erstaunlich sind, wenn Sie versuchen, Remote-Server einzurichten). Manchmal sagt ein Bild mehr als tausend Worte.

Hier ist beispielsweise ein von Sitebulb zusammengestellter Videoclip zum Einrichten von Sitebulb Server über AWS:

Beachten Sie, dass ich persönlich AWS verwende, und das hat gut funktioniert, aber Sie können jedes gewünschte Setup verwenden. Sie können einen dedizierten Server, AWS, Google Cloud Compute, einen freien Computer in Ihrem lokalen Netzwerk usw. verwenden. Sobald Sie einen Server eingerichtet haben, was normalerweise nicht lange dauert, können Sie mit der Einrichtung von Sitebulb Server und dem fortfahren spezielle Desktop-Version von Sitebulb, die sich mit Ihrem Server verbindet.

Speicherplatz und vCPUs: Einige wichtige Punkte zu Ihrem Server.
Wenn Sie Ihren Server einrichten, ist es wichtig, dass Sie über genügend Speicherplatz und genügend vCPUs (oder virtuelle CPUs) verfügen. Sie wirken sich darauf aus, wie viele Crawling-Daten Sie speichern können und wie viele Threads Sie beim Crawlen verwenden können.

Erstens nehmen Crawls viel Platz ein. Und Unternehmens-Crawls nehmen eine Menge Platz ein. Stellen Sie sicher, dass Sie basierend auf den Arten von Crawls, die Sie normalerweise ausführen, genügend Speicherplatz auswählen. Unten ist ein Screenshot von AWS zum Konfigurieren des Speichers.

Konfigurieren des Festplattenspeichers beim Einrichten von Sitebulb Server auf AWS

Als nächstes kommen vCPUs (oder virtuelle CPUs). Es ist wichtig zu verstehen, dass jede vCPU ein Thread ist. Wenn Ihr Crawl also 5 Threads beansprucht, benötigen Sie 5 vCPUs. Wenn Sie sich mit dem Server verbinden, nehmen Sie außerdem einen Thread auf. Und wenn Sie mehrere Crawls gleichzeitig ausführen möchten, müssen Sie dies ebenfalls berücksichtigen (noch mehr Threads). Unten sehen Sie, dass die AWS-Instanz 8 vCPUs (oder 8 Threads für Sitebulb Server) hat.

Auswählen der Anzahl der vCPUs beim Einrichten von Sitebulb Server auf AWS

Wenn Sie beispielsweise zwei Crawls mit jeweils 5 Threads ausführen und sich mit dem Server verbinden, benötigen Sie 11 Threads (5 + 5 + 1). Ich hatte einige Fragen dazu, und Patrick war großartig, als er sich mit weiteren Informationen bei mir gemeldet hat. Das Team von Sitebulb verfügt über eine Fülle von Kenntnissen und ist unglaublich darin, Kunden zu helfen. Überprüfen Sie also zuerst ihre Dokumentation. Wenn Sie immer noch keine Antwort haben, bin ich sicher, dass sie Ihnen helfen können, die beste Lösung zu finden.

Hinweise zum gleichzeitigen Ausführen von Crawls im Vergleich zum Einreihen in die Warteschlange.
Ein weiterer Punkt, der für Verwirrung sorgt, ist das Ausführen gleichzeitiger Crawls. Mit anderen Worten, auf diese Weise führen Sie mehrere Crawls gleichzeitig aus. Dies ist normalerweise nur Enterprise-Crawlern vorbehalten, aber Sie können dies jetzt über Sitebulb Server tun.

Stellen Sie zunächst sicher, dass Sie beim Einrichten Ihres Servers die Option zum Ausführen gleichzeitiger Crawls aktivieren. Das ist im Abschnitt Servereinstellungen.

Überprüfen gleichzeitiger Audits in Sitebulb Server

Stellen Sie als Nächstes sicher, dass Sie die richtige Einstellung für „Typ der gleichzeitigen Warteschlange“ haben. Das sollte auf „Nächster basierend auf verfügbaren Threads“ und nicht auf „First in, first out“ eingestellt sein. Wenn Sie es auf „First in, first out“ eingestellt haben, wird jeder Crawl separat (und in der angegebenen Reihenfolge) ausgeführt. Durch die Verwendung von „Concurrent queue type“ können die Crawls gleichzeitig ausgeführt werden, solange genügend Threads vorhanden sind (siehe meine Kommentare oben dazu).

Festlegen des gleichzeitigen Warteschlangentyps in Sitebulb Server

Und für „Reservierte Threads“ basiert die von Ihnen festgelegte Anzahl auf der Anzahl der Teammitglieder, die gleichzeitig auf den Server zugreifen. Wenn Sie ein Einzelberater sind, können Sie einfach einen festlegen. Wenn Sie zwei andere Teamkollegen haben, die gleichzeitig auf den Server zugreifen, sollten Sie diese Einstellung auf drei setzen (Sie und zwei Teamkollegen).

Festlegen von reservierten Threads in Sitebulb Server

Die IP-Adresse ändert sich, wenn Sie AWS stoppen und neu starten
Ein weiteres verwirrendes Thema betrifft IP-Adressen und Ihre AWS-Instanzen. Da Sie bezahlen, wenn der Server verwendet wird, sollten Sie diese Instanz normalerweise stoppen, wenn sie nicht verwendet wird. Wenn nicht, können Ihre Kosten in die Höhe schnellen. Aber hier ist der Haken. Wenn Sie Ihre AWS-Instance stoppen und neu starten, erhält der Server eine neue IP-Adresse . Und diese IP-Adresse verwenden Sie, wenn Sie Ihre Sitebulb-Desktop-App mit Ihrem Sitebulb-Server verbinden. Es ist auch das, was Sie verwenden, wenn Sie sich über Remote Desktop mit diesem Server verbinden (um den Server remote zu verwalten).

Daher müssen Sie schnell zu Ihren Einstellungen auf dem Sitebulb-Desktop gehen und die IP-Adresse für Ihren Server ändern. Es dauert nicht lange, es ist nicht schwer, aber es kann Verwirrung stiften, wenn Sie nicht wissen, dass Sie das tun müssen. Sie können sich grundsätzlich nicht mit Ihrem Sitebulb-Server verbinden, wenn nicht die richtige IP-Adresse verwendet wird.

Ändern der IP-Adresse nach dem Stoppen und Neustarten eines AWS-Servers

Denken Sie auch daran, dass Sie diese IP-Adresse ändern müssen, wenn Sie sich über Remote Desktop verbinden. Wenn nicht, schlägt Ihre Verbindung fehl. Sie verwenden Remote Desktop, um Ihren Server remote zu verwalten (z. B. zum Installieren von Software).

Hinzufügen einer neuen IP-Adresse über Remote Desktop

Verbinden Sie sich mit mehreren Sitebulb-Servern von einem Desktop-Sitebulb-Setup aus.
Eine weitere coole Funktion von Sitebulb Server ist, dass Sie von einem Desktop-Setup aus eine Verbindung zu mehreren Servern herstellen können. Wenn Sie also mehrere Sitebulb-Server benötigen, da Sie viele Crawls gleichzeitig ausführen müssen, können Sie dies tun. Richten Sie einfach mehrere AWS-Server oder dedizierte Server ein, richten Sie Sitebulb Server darauf ein und stellen Sie dann von Ihrer Desktop-App aus eine Verbindung zu diesen Servern her. Sitebulb Server ist an dieser Front extrem skalierbar.

Fügen Sie mehrere Server in Sitebulb Server hinzu
Registrierung eines neuen Servers in Sitebulb Server

Wichtig: Öffnen Sie einen Netzwerkport auf Ihrem Server.
OK, ich bin auf dieses Problem gestoßen, als ich Sitebulb Server eingerichtet habe, also bin ich sicher, dass andere es auch tun werden. Sitebulb hat dies auch in seiner Dokumentation, also werden Sie es hoffentlich nicht vermissen, wenn Sie Ihren eigenen Server einrichten. Aber ich wollte es trotzdem hier behandeln, da es wichtig ist.

Sie müssen wahrscheinlich einen Netzwerkport auf Ihrer Server-Firewall öffnen, um Sitebulb Server ordnungsgemäß auszuführen. Netzwerkports sind normalerweise standardmäßig geschlossen, daher müssen Sie eine Firewall-Richtlinie erstellen, um Port 10401 auf Ihrem Server zu öffnen. Es ist einfach zu tun, wenn Sie wissen, wohin Sie gehen müssen und wie es geht, aber ich denke, viele könnten es vermissen, es einzurichten. Die Video-Tutorials von Sitebulb behandeln diesen Schritt im Detail, daher werde ich das Rad hier nicht neu erstellen. Aber noch einmal, es ist wichtig zu tun.

Öffnen eines Netzwerkports beim Einrichten von Sitebulb Server über AWS

Sitebulb Server – Eine starke Option zum Ausführen von Enterprise-Crawls, ohne Ihr lokales Setup zu beeinträchtigen.
Auch hier wollte ich nicht versuchen, alles über Sitebulb Server in diesem Beitrag abzudecken. Stattdessen wollte ich einige technische Tipps und Tricks behandeln, auf die SEOs und Websitebesitzer beim Einrichten und Ausführen von Sitebulb Server stoßen könnten (basierend auf der Verwendung von Sitebulb Server in den letzten Monaten). Ich persönlich habe festgestellt, dass Sitebulb Server eine starke Lösung für die Ausführung von Enterprise-Crawls mit kleinem Budget ist. Und ich denke, du wirst es auch. Ich empfehle, sich an Patrick und Gareth von Sitebulb zu wenden, um mehr über die verfügbaren Optionen zum Ausprobieren von Sitebulb Server zu erfahren.

GG