Server Sitebulb – Sfaturi tehnice și trucuri pentru configurarea unui crawler de întreprindere DIY puternic (cu un buget)
Publicat: 2022-09-26
Când se efectuează audituri SEO, crawling-ul este extrem de important. Pentru SEO și proprietarii de site-uri, există mai multe opțiuni disponibile de la crawlerele locale până la crawlerele enterprise (servicii SAAS). De-a lungul anilor, am fost extrem de vocal despre instrumentele mele preferate de crawling, care sunt Screaming Frog, Sitebulb, DeepCrawl și, mai recent, JetOctopus. Screaming Frog și Sitebulb sunt de obicei crawler-uri locale, în timp ce DeepCrawl și JetOctopus sunt crawler-uri excelente și puternice pentru întreprinderi.
Când m-am referit la Screaming Frog și Sitebulb, am spus „crawler-uri de obicei locale”, deoarece există modalități de a pirata un crawler local într-un crawler SAAS. De exemplu, am pornit mai multe servere AWS, am instalat Screaming Frog și Sitebulb pe ele și apoi pot accesa cu crawlere de la distanță. Avantajul principal este că îmi eliberez resursele locale pentru a mă concentra pe alte lucruri, în timp ce serverele mele AWS fac munca grea din punct de vedere al crawlerului.
Acest lucru a funcționat destul de bine, dar există o nouă soluție pentru voi, cei care se fac singuri. Se numește Sitebulb Server și este în prezent în versiune beta. Îl folosesc de câteva luni și am vrut să acopăr câteva sfaturi și trucuri într-o postare pe blog. Cred că este o soluție puternică care te poate duce de la local la întreprindere cu un buget redus.
Rețineți, nu voi acoperi tot ce trebuie să știți în această postare. În schimb, am vrut să aflu cum funcționează, câteva sfaturi și trucuri tehnice și câteva atenții. Sunt sigur că echipa de la Sitebulb vă poate răspunde la orice alte întrebări pe care le aveți (au fost foarte utile de-a lungul anilor și cu această versiune beta). Și poți oricând să-mi dai un ping pe Twitter dacă întâmpinați probleme. Dacă pot răspunde rapid la aceste întrebări, o voi face.
Ce este Sitebulb Server exact?
Sitebulb Server este o modalitate prin care puteți configura o versiune specială de Sitebulb pe un server separat, care poate rula accesări cu crawlere fără a vă bloca resursele locale. Cu versiunea standard a Sitebulb, majoritatea utilizatorilor o rulează pe computerele lor locale. Este în regulă, dar cu siguranță vă poate bloca sistemul și poate ocupa lățime de bandă. Cu Sitebulb Server, totul se întâmplă pe un server separat. Apoi, puteți utiliza o versiune specială de Sitebulb pe desktop pentru a vă conecta la server. Și când faci asta, poți accesa auditurile ca și cum le-ai fi executat pe mașina ta locală. Este minunat să poți face asta.
Am menționat mai devreme că puteți oricând să configurați un server la distanță separat și să rulați Sitebulb (sau Screaming Frog). Am făcut asta de ani de zile și funcționează destul de bine (deși nu ați putea rula mai multe crawleri în același timp). Ei bine, Sitebulb Server este un server de crawling la distanță, dar pe steroizi . Este creat pentru a rula mai multe accesări cu crawlere în același timp, permițându-vă să vă conectați la oricare dintre acele accesări cu crawlere din propria aplicație desktop. În plus, mai mulți membri ai echipei pot accesa acele accesări cu crawlere de pe Sitebulb Server. Deci, dacă aveți o echipă de SEO care lucrează la un audit, atunci Sitebulb Server poate fi o soluție puternică de bricolaj pentru accesarea datelor de accesare cu crawlere a acelor membri ai echipei.
Capacitatea de a accesa cu crawlere site-uri simultan pe un server la distanță este uimitoare:

Vă puteți accesa serverul de oriunde pentru a audita datele de accesare cu crawlere ca și cum ar fi fost pe computerul dvs. local:

Cel mai mare obstacol IMO – Configurarea serverului înfricoșătoare, confuză, criptică, dar adesea ușoară.
Toate acestea sună grozav, nu? Dar care este cel mai mare obstacol sau cerc prin care trebuie să treci? Fără îndoială, este configurarea serverului. M-am lovit de asta când am configurat prima dată instanțe AWS pentru a rula propriile versiuni de Screaming Frog și Sitebulb. Este un proces criptic cu care mulți SEO și proprietari de site-uri nu sunt familiarizați. Nu este neapărat greu, dar cu siguranță un obstacol în opinia mea. Găsesc că mulți SEO nu au configurat servere separate pentru accesare cu crawlere și știu un număr care a avut probleme în timp ce încerca să le configureze.
Ei bine, Sitebulb la salvare. Patrick și Gareth de la Sitebulb au creat o documentație excelentă pentru configurarea Sitebulb Server, cum să configurați servere la distanță (inclusiv AWS și Google Cloud Compute) și multe altele. Puteți citi mai multe în documentația lor de ajutor, care include și clipuri video (care sunt uimitoare atunci când încercați să configurați servere la distanță). Uneori o imagine valorează cât o mie de cuvinte.
De exemplu, iată un clip video Sitebulb creat pentru configurarea Sitebulb Server prin AWS:
Rețineți, eu personal folosesc AWS și asta a funcționat bine, dar puteți utiliza orice configurație doriți. Puteți utiliza un server dedicat, AWS, Google Cloud Compute, un computer de rezervă în rețeaua locală etc. Odată ce ați configurat un server, care de obicei nu durează mult, puteți continua cu configurarea Sitebulb Server și versiune specială pentru desktop a Sitebulb care se conectează la serverul dvs.
Spațiu pe disc și vCPU: câteva puncte importante despre serverul dvs.
Atunci când vă configurați serverul, este important să vă asigurați că aveți suficient spațiu pe disc și suficiente vCPU (sau procesoare virtuale). Acestea influențează cât de multe date de accesare cu crawlere puteți stoca și câte fire de execuție puteți utiliza atunci când accesați cu crawlere.
În primul rând, crawlele ocupă mult spațiu. Și crawl-urile întreprinderilor ocupă o tonă de spațiu. Asigurați-vă că selectați suficient spațiu pe disc în funcție de tipurile de accesări cu crawlere pe care le executați de obicei. Mai jos este o captură de ecran de la AWS pentru configurarea stocării.

Urmează vCPU-urile (sau CPU-urile virtuale). Este important să înțelegeți că fiecare vCPU este un fir. Deci, dacă accesarea cu crawlere va ocupa 5 fire, atunci veți avea nevoie de 5 vCPU. În plus, atunci când te conectezi la server, iei și un thread. Și dacă doriți să rulați mai multe accesări cu crawlere în același timp, trebuie să țineți cont și de acest lucru (și mai multe fire). Mai jos, puteți vedea că instanța AWS are 8 vCPU-uri (sau 8 fire de execuție pentru Sitebulb Server).


De exemplu, dacă rulați două accesări cu crawlere folosind 5 fire fiecare și vă conectați la server, atunci veți avea nevoie de 11 fire (5 + 5 + 1). Am avut câteva întrebări despre asta și Patrick a fost minunat să mi-a răspuns cu mai multe informații. Echipa de la Sitebulb are o mulțime de cunoștințe și sunt incredibile în a ajuta clienții. Deci, mai întâi verificați documentația lor. Dacă tot nu ai un răspuns, sunt sigur că te pot ajuta să găsești cea mai bună soluție.
Note despre rularea accesului cu crawlere concomitent versus punerea lor în coadă.
Un alt punct de confuzie este despre rularea crawlerilor simultane. Cu alte cuvinte, așa veți rula mai multe accesări cu crawlere în același timp. Acesta este ceva de obicei rezervat doar pentru crawlerele de companie, dar puteți face acest lucru acum prin Sitebulb Server.
În primul rând, atunci când configurați serverul, asigurați-vă că bifați opțiunea pentru rularea crawlerilor simultane. Asta se află în secțiunea setări server.

Apoi, asigurați-vă că aveți setarea corectă pentru „Tip de coadă simultană”. Ar trebui setat la „Următorul în funcție de firele disponibile” și nu „Primul intrat, primul ieșit”. Dacă l-ați setat la „Primul intrat, primul ieșit”, atunci fiecare accesare cu crawlere va rula separat (și în ordine). Folosind „Tipul de coadă concurent”, accesările cu crawlere pot rula în același timp, atâta timp cât există suficiente fire (consultați comentariile mele mai devreme despre asta).

Iar pentru „Fire rezervate”, numărul pe care îl setați se bazează pe numărul de membri ai echipei care accesează serverul în același timp. Dacă sunteți un consultant solo, atunci puteți să setați unul. Dacă aveți alți doi colegi de echipă care vor accesa serverul în același timp, atunci ar trebui să aveți setat la trei (tu și doi colegi de echipă).

Adresa IP se modifică atunci când opriți și reporniți AWS
Un alt subiect confuz este legat de adresele IP și instanțele dvs. AWS. Deoarece plătiți când serverul este în uz, de obicei veți dori să opriți acea instanță atunci când nu este în uz. Dacă nu, costurile dvs. pot începe să crească vertiginos. Dar aici este problema. Când opriți și reporniți instanța AWS, serverul primește o nouă adresă IP . Și acea adresă IP este cea pe care o utilizați atunci când vă conectați aplicația de desktop Sitebulb la serverul dvs. Sitebulb. Este, de asemenea, ceea ce utilizați atunci când vă conectați la acel server prin Remote Desktop (pentru gestionarea serverului de la distanță).
Prin urmare, va trebui să accesați rapid setările de pe desktopul Sitebulb și să schimbați adresa IP pentru serverul dvs. Nu durează mult, nu este greu de făcut, dar poate provoca confuzie dacă nu știi că trebuie să faci asta. Practic, nu vă veți putea conecta la serverul Sitebulb decât dacă este utilizată adresa IP corectă.

Și amintiți-vă că va trebui să schimbați acea adresă IP atunci când vă conectați prin Desktop la distanță. Dacă nu, conexiunea dvs. va eșua. Utilizați Desktop la distanță pentru a vă gestiona serverul de la distanță (cum ar fi instalarea de software).

Conectați-vă la mai multe servere Sitebulb dintr-o singură configurare Sitebulb pentru desktop.
O altă caracteristică grozavă a Sitebulb Server este că vă puteți conecta la mai multe servere dintr-o singură configurare pentru desktop. Deci, dacă aveți nevoie de mai multe servere Sitebulb, deoarece trebuie să rulați mai multe accesări cu crawlere în același timp, puteți face asta. Doar porniți mai multe servere AWS sau servere dedicate, configurați Sitebulb Server pe ele și apoi conectați-vă la acele servere din aplicația dvs. desktop. Sitebulb Server este extrem de scalabil din acest punct de vedere.


Important: deschideți un port de rețea pe serverul dvs.
OK, m-am confruntat cu această problemă când am configurat Sitebulb Server, așa că sunt sigur că și alții o vor face. Sitebulb are și acest lucru în documentația lor, așa că sperăm că nu îl veți rata atunci când vă configurați propriul server. Dar, oricum, am vrut să o acopăr aici, deoarece este important.
Probabil că va trebui să deschideți un port de rețea pe firewall-ul serverului pentru a rula corect Sitebulb Server. Porturile de rețea sunt de obicei închise în mod implicit, așa că va trebui să creați o politică de firewall pentru a deschide portul 10401 pe server. Este ușor de făcut odată ce știi unde să mergi și cum să o faci, dar cred că mulți ar putea rata să-l configureze. Tutorialele video ale Sitebulb acoperă acest pas în detaliu, așa că nu voi recrea aici roata. Dar din nou, este important să faci.

Sitebulb Server – O opțiune puternică pentru a rula crawleri ale întreprinderii fără a vă bloca configurația locală.
Din nou, nu am vrut să încerc să acopăr totul despre Sitebulb Server în această postare. În schimb, am vrut să acopăr câteva sfaturi tehnice și trucuri cu care s-ar putea întâlni SEO și proprietarii de site-uri în timp ce configurează și rulează Sitebulb Server (pe baza utilizării Sitebulb Server în ultimele câteva luni). Personal, am descoperit că Sitebulb Server este o soluție puternică pentru rularea crawlerilor de întreprindere cu un buget redus. Și cred că o vei face și tu. Vă recomand să contactați Patrick și Gareth de la Sitebulb pentru a afla mai multe despre opțiunile disponibile pentru a încerca Sitebulb Server.
GG
