Sitebulb Server: suggerimenti e trucchi tecnici per configurare un potente crawler aziendale fai-da-te (con un budget limitato)
Pubblicato: 2022-09-26
Quando si eseguono audit SEO, la scansione è estremamente importante. Per SEO e proprietari di siti, sono disponibili diverse opzioni, dai crawler locali ai crawler aziendali (servizi SAAS). Sono stato estremamente esplicito nel corso degli anni sui miei strumenti di scansione preferiti, che sono Screaming Frog, Sitebulb, DeepCrawl e, più recentemente, e JetOctopus. Screaming Frog e Sitebulb sono in genere crawler locali, mentre DeepCrawl e JetOctopus sono eccellenti e potenti crawler aziendali.
Quando mi riferivo a Screaming Frog e Sitebulb, ho detto "crawler tipicamente locali" poiché ci sono modi per hackerare un crawler locale in un crawler SAAS. Ad esempio, ho creato diversi server AWS, ho installato Screaming Frog e Sitebulb su di essi e quindi posso eseguire la scansione da remoto. Il vantaggio principale è che libero le mie risorse locali per concentrarmi su altre cose mentre i miei server AWS fanno il lavoro pesante di scansione.
Ha funzionato abbastanza bene, ma c'è una nuova soluzione per te fai-da-te. Si chiama Sitebulb Server ed è attualmente in versione beta. Lo uso da diversi mesi e volevo coprire alcuni suggerimenti e trucchi in un post sul blog. Penso che sia una soluzione potente che può portarti dal locale all'impresa con un budget limitato.
Nota, non tratterò tutto ciò che devi sapere in questo post. Invece, volevo coprire come funziona, alcuni suggerimenti e trucchi tecnici e alcuni punti di attenzione. Sono sicuro che il team di Sitebulb può rispondere a qualsiasi altra tua domanda (sono stati di grande aiuto nel corso degli anni e con questa versione beta). E puoi sempre inviarmi un ping su Twitter in caso di problemi. Se posso rispondere rapidamente a queste domande, lo farò.
Che cos'è esattamente il server Sitebulb?
Sitebulb Server è un modo per configurare una versione speciale di Sitebulb su un server separato, che può eseguire scansioni senza impantanare le risorse locali. Con la versione standard di Sitebulb, la maggior parte degli utenti lo esegue sui propri computer locali. Va bene, ma può sicuramente impantanare il tuo sistema e occupare larghezza di banda. Con Sitebulb Server, tutto ciò accade su un server separato. Quindi puoi utilizzare una versione speciale di Sitebulb sul desktop per connetterti al tuo server. E quando lo fai, puoi accedere agli audit come se li avessi eseguiti sul tuo computer locale. È fantastico poterlo fare.
Ho accennato in precedenza che puoi sempre configurare un server remoto separato ed eseguire Sitebulb (o Screaming Frog). L'ho fatto per anni e funziona abbastanza bene (anche se non è possibile eseguire più scansioni contemporaneamente). Bene, Sitebulb Server è un server di scansione remoto, ma sotto steroidi . È progettato per eseguire più scansioni contemporaneamente, consentendoti di connetterti a qualsiasi di queste scansioni dalla tua app desktop. Inoltre, più membri del team possono accedere a tali scansioni da Sitebulb Server. Quindi, se hai un team di SEO che lavora su un audit, Sitebulb Server può essere una solida soluzione fai-da-te per l'accesso ai dati di scansione tra quei membri del team.
La possibilità di eseguire la scansione simultanea dei siti su un server remoto è sorprendente:

Puoi accedere al tuo server da qualsiasi luogo per controllare i dati di scansione come se fossero sul tuo computer locale:

The Biggest Obstacle IMO – La configurazione del server spaventosa, confusa, criptica, ma spesso facile.
Tutto questo suona alla grande, giusto? Ma qual è l'ostacolo o il cerchio più grande che devi superare? Indubbiamente, è la configurazione del server. Mi sono imbattuto in questo durante la prima configurazione delle istanze AWS per eseguire le proprie versioni di Screaming Frog e Sitebulb. È un processo criptico con cui molti SEO e proprietari di siti non hanno familiarità. Non è necessariamente difficile, ma sicuramente un ostacolo secondo me. Trovo che molti SEO non abbiano impostato server separati per la scansione e conosco un numero che ha riscontrato problemi durante il tentativo di configurarli.
Bene, Sitebulb in soccorso. Patrick e Gareth di Sitebulb hanno creato un'eccellente documentazione per configurare Sitebulb Server, come configurare server remoti (inclusi AWS e Google Cloud Compute) e altro ancora. Puoi leggere di più nella loro documentazione di aiuto, che include anche clip video (che sono incredibili quando stai provando a configurare server remoti). A volte un'immagine vale più di mille parole.
Ad esempio, ecco un video clip che Sitebulb ha creato per configurare Sitebulb Server tramite AWS:
Nota, io personalmente uso AWS e ha funzionato bene, ma puoi utilizzare qualsiasi configurazione desideri. Puoi utilizzare un server dedicato, AWS, Google Cloud Compute, un computer di riserva sulla tua rete locale, ecc. Dopo aver configurato un server, che in genere non richiede molto tempo, puoi procedere con la configurazione di Sitebulb Server e il speciale versione desktop di Sitebulb che si connette al tuo server.
Spazio su disco e vCPU: alcuni punti importanti sul tuo server.
Quando si configura il server, è importante assicurarsi di disporre di spazio su disco sufficiente e di vCPU (o CPU virtuali) sufficienti. Influiscono sulla quantità di dati di scansione che puoi archiviare e sul numero di thread che puoi utilizzare durante la scansione.
Innanzitutto, i crawl occupano molto spazio. E i crawl aziendali occupano molto spazio. Assicurati di selezionare spazio su disco sufficiente in base ai tipi di scansione che esegui in genere. Di seguito è riportato uno screenshot di AWS per la configurazione dello storage.

Il prossimo passo sono le vCPU (o CPU virtuali). È importante capire che ogni vCPU è un thread. Quindi, se la tua scansione occuperà 5 thread, avrai bisogno di 5 vCPU. Inoltre, quando ti connetti al server, stai anche occupando un thread. E se vuoi eseguire più scansioni contemporaneamente, devi tenerne conto (anche più thread). Di seguito, puoi vedere che l'istanza AWS ha 8 vCPU (o 8 thread per Sitebulb Server).


Ad esempio, se esegui due scansioni utilizzando 5 thread ciascuno e ti stai connettendo al server, avrai bisogno di 11 thread (5 + 5 + 1). Avevo alcune domande su questo e Patrick è stato fantastico nel rispondermi con ulteriori informazioni. Il team di Sitebulb ha una vasta conoscenza ed è incredibile nell'aiutare i clienti. Quindi, prima controlla la loro documentazione. Se ancora non hai una risposta, sono sicuro che possono aiutarti a capire la soluzione migliore.
Note sull'esecuzione simultanea delle ricerche per indicizzazione rispetto al loro accodamento.
Un altro punto di confusione riguarda l'esecuzione di scansioni simultanee. In altre parole, questo è il modo in cui eseguirai più scansioni contemporaneamente. Questo è qualcosa in genere riservato solo ai crawler aziendali, ma puoi farlo ora tramite Sitebulb Server.
Innanzitutto, durante la configurazione del server assicurati di selezionare l'opzione per l'esecuzione di scansioni simultanee. È nella sezione delle impostazioni del server.

Quindi, assicurati di avere l'impostazione corretta per "Tipo di coda simultanea". Dovrebbe essere impostato su "Avanti in base ai thread disponibili" e non su "Primo entrato, primo uscito". Se è impostato su "Primo entrato, primo uscito", ogni scansione verrà eseguita separatamente (e in ordine). Usando "Tipo di coda simultanea", le scansioni possono essere eseguite contemporaneamente fintanto che ci sono abbastanza thread (vedi i miei commenti in precedenza a riguardo).

E per i "Thread riservati", il numero che imposti si basa sul numero di membri del team che accedono al server contemporaneamente. Se sei un consulente solista, puoi semplicemente impostarne uno. Se hai altri due compagni di squadra che accederanno al server contemporaneamente, dovresti impostarlo su tre (tu e due compagni di squadra).

L'indirizzo IP cambia quando interrompi e riavvii AWS
Un altro argomento confuso è relativo agli indirizzi IP e alle tue istanze AWS. Poiché stai pagando quando il server è in uso, in genere vorrai interrompere quell'istanza quando non è in uso. In caso contrario, i tuoi costi possono iniziare a salire alle stelle. Ma ecco il problema. Quando arresti e riavvii l'istanza AWS, il server ottiene un nuovo indirizzo IP . E quell'indirizzo IP è quello che usi quando connetti la tua app desktop Sitebulb al tuo server Sitebulb. È anche quello che usi quando ti connetti a quel server tramite Desktop remoto (per gestire il server in remoto).
Pertanto, dovrai accedere rapidamente alle tue impostazioni sul desktop di Sitebulb e modificare l'indirizzo IP del tuo server. Non ci vuole molto, non è difficile da fare, ma può creare confusione se non sai che devi farlo. Fondamentalmente non sarai in grado di connetterti al tuo server Sitebulb a meno che non venga utilizzato l'indirizzo IP corretto.

E ricorda anche che dovrai cambiare quell'indirizzo IP quando ti connetti tramite Desktop remoto. In caso contrario, la connessione fallirà. Utilizzi Desktop remoto per gestire il tuo server in remoto (come l'installazione di software).

Connettiti a più server Sitebulb da un'unica configurazione Sitebulb desktop.
Un'altra caratteristica interessante di Sitebulb Server è che puoi connetterti a più server da un'unica configurazione desktop. Quindi, se hai bisogno di più server Sitebulb poiché devi eseguire molte scansioni contemporaneamente, puoi farlo. Basta creare più server AWS o server dedicati, configurare Sitebulb Server su di essi e quindi connetterti a quei server dalla tua app desktop. Sitebulb Server è estremamente scalabile su questo fronte.


Importante: apri una porta di rete sul tuo server.
OK, ho riscontrato questo problema durante la configurazione di Sitebulb Server, quindi sono sicuro che lo faranno anche gli altri. Sitebulb ha anche questo nella loro documentazione, quindi speriamo che non lo manchi quando configuri il tuo server. Ma volevo comunque coprirlo qui, poiché è importante.
Probabilmente dovrai aprire una porta di rete sul firewall del tuo server per eseguire correttamente Sitebulb Server. Le porte di rete sono in genere chiuse per impostazione predefinita, quindi dovrai creare un criterio firewall per aprire la porta 10401 sul tuo server. È facile da fare una volta che sai dove andare e come farlo, ma penso che molti potrebbero non configurarlo. I tutorial video di Sitebulb coprono questo passaggio in dettaglio, quindi non ricreerò la ruota qui. Ma ancora una volta, è importante farlo.

Sitebulb Server: un'opzione efficace per eseguire scansioni aziendali senza impantanare la configurazione locale.
Ancora una volta, non volevo provare a coprire tutto su Sitebulb Server in questo post. Invece, volevo illustrare alcuni suggerimenti e trucchi tecnici che i SEO e i proprietari di siti potrebbero incontrare durante la configurazione e l'esecuzione di Sitebulb Server (basato sull'utilizzo di Sitebulb Server negli ultimi mesi). Personalmente, ho trovato Sitebulb Server come una soluzione efficace per eseguire scansioni aziendali con un budget limitato. E penso che lo farai anche tu. Consiglio di contattare Patrick e Gareth di Sitebulb per saperne di più sulle opzioni disponibili per provare Sitebulb Server.
GG
