5 greșeli de evitat în sitemapurile dvs
Publicat: 2022-03-15Am creat un instrument care ne permite să verificăm câte pagini de pe un anumit site sunt indexate în Google .
Până acum, am verificat sute de site-uri web, iar instrumentul ne-a ajutat să diagnosticăm problemele SEO cu care se confruntau clienții noștri, cum ar fi cele legate de bugetul de accesare cu crawlere și de indexare.
Întâlnim adesea anomalii de date atunci când investigăm aceste probleme și vedem multe site-uri web cu greșeli grave în hărțile lor.
Cum ar putea acest lucru să vă afecteze site-ul?
Dacă sitemap-ul dvs. nu este implementat corect, Googlebot poate petrece mult timp accesând cu crawlere adrese URL de calitate scăzută, ceea ce este o risipă de buget de accesare cu crawlere. Drept urmare, multe adrese URL valoroase de pe site-ul dvs. web ar putea să nu fie indexate în Google , deoarece nu va avea suficiente resurse pentru a le accesa cu crawlere.
Ce greșeli fac site-urile populare în hărțile lor de site și cum le evitați pentru a vă asigura că Google nu irosește bugetul de accesare cu crawlere pe conținut irelevant?
Să săpăm.
Care este bugetul de crawl?
În primul rând, permiteți-mi să vă explic ce este bugetul de accesare cu crawlere și cât de exact este relevant pentru indexarea site-urilor web.
Google este capabil să acceseze cu crawlere mult conținut, dar resursele sale nu sunt infinite – așa că trebuie să facă alegeri cu resursele de care dispune.
De aceea, Googlebot definește un buget de accesare cu crawlere pentru toate site-urile web – numărul de adrese URL pe care le poate și pe care dorește să le acceseze cu crawlere.
Bugetul de accesare cu crawlere al unui site depinde de două valori :
- Limită de capacitate de accesare cu crawlere – calculată pentru a accesa cu crawlere tot conținutul important de pe un site web fără a depăși limitele serverului acestuia – și,
- Cererea de accesare cu crawlere – determinată de dimensiunea, popularitatea și frecvența de actualizare a unui site web.
Dacă site-ul încetinește sau răspunde cu erori de server, limita scade și Googlebot accesează cu crawlere mai puțin.sursa: documentatia Google
Din cauza capabilităților limitate ale Googlebot, ar trebui să planificați ce adrese URL accesează cu crawlere Googlebot pe site-ul dvs.
Cheia pentru ajustarea adreselor URL care sunt accesate cu crawlere este explicată în documentația Google:
Gestionați-vă inventarul de adrese URL: utilizați instrumentele adecvate pentru a spune Google ce pagini să acceseze cu crawlere și care nu. Dacă Google petrece prea mult timp accesând cu crawlere adrese URL care nu sunt adecvate pentru index, Googlebot ar putea decide că nu merită să se uite la restul site-ului dvs.sursa: documentatia Google
Recapitulând - iată ce știm până acum:
- Dacă site-ul dvs. este lent, Google poate accesa cu crawlere mai puține adrese URL, prin urmare, mai puține adrese URL își vor găsi drumul în indexul Google,
- Dacă Google este capabil să descopere o mulțime de adrese URL de calitate scăzută atunci când accesează cu crawlere site-ul dvs., poate decide că calitatea generală a site-ului dvs. este scăzută.
Iată o concluzie crucială:
Cu tone de adrese URL de calitate scăzută pe care Google le poate accesa cu crawlere, Googlebot poate pierde mult timp la accesarea cu crawlere a acestora și este posibil să nu poată accesa cu crawlere multe adrese URL de înaltă calitate pe site-ul dvs.
Aceasta are cea mai mare greutate pentru site-urile web mari sau care se schimbă rapid, deoarece acestea trebuie accesate cu crawlere des și extensiv pentru a atrage trafic.
Cât de importante sunt sitemapurile pentru bugetul dvs. de accesare cu crawlere?
După cum v-am explicat, optimizarea bugetului de accesare cu crawlere este un pas extrem de important pentru indexarea site-ului dvs.
Una dintre modalitățile de a gestiona inventarul de adrese URL este prin crearea și menținerea unui sitemap bine optimizat.
O hartă a site -ului este un fișier în care furnizați informații despre paginile, videoclipurile și alte fișiere de pe site-ul dvs. și relațiile dintre acestea […]. O hartă a site-ului îi spune Google care pagini și fișiere considerați că sunt importante pe site-ul dvs. și oferă, de asemenea, informații valoroase despre aceste fișiere. De exemplu, când pagina a fost actualizată ultima dată și orice versiune a paginii în alte limbi.sursa: documentatia Google
Cu toate acestea, tone de site-uri web nu reușesc să creeze sitemap-uri bine optimizate. Din fericire, putem învăța din greșelile lor.
Ce greșeli ar trebui să evitați în harta site-ului dvs.?
Am analizat multe site-uri populare și am constatat că multe dintre ele fac greșeli în hărțile lor de site care le afectează negativ bugetul de accesare cu crawlere, ceea ce ar putea duce la probleme cu acoperirea indexului lor.
Iată defalcarea mea a greșelilor de evitat atunci când creez un sitemap.
Se trimit adrese URL incorecte
Una dintre greșelile pe care le-am descoperit a vizat structura URL-urilor din sitemapurile.
Să o analizăm uitându-ne la un exemplu specific.
Whisky.de
Când am văzut statistici colectate de software-ul nostru, am rămas uimit: arăta că 0% din paginile whisky.de trimise în sitemap-uri au fost indexate pe Google.
Știam că acest lucru nu poate fi adevărat, așa că am investigat datele în continuare.
Majoritatea adreselor URL din sitemapurile lui whisky.de păreau valide:
- Erau canonici,
- Nu au fost blocați de metaeticheta noindex robots,
- Nu au fost blocați de directiva disallow în robots.txt,
- Ei au răspuns cu un cod de stare 200.
Dar apoi am observat că toate adresele URL aveau bare oblice duble după domeniul de nivel superior - aruncați o privire la acest exemplu:
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaessern.html
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
- https://www.whisky.de//presse/pressespiegel/playboy.html
Dubla bară oblică pare o greșeală programatică evidentă în timpul generării sitemap-urilor și una care este ușor de remediat.
Cu toate acestea, paginile incluse în sitemap-urile au etichete canonice care indică adresele URL respective - versiunile lor corecte cu o singură bară oblică.

Drept urmare, este foarte probabil ca Google să viziteze de două ori mai multe adrese URL decât s-a dorit: adresele URL cu bare oblice simple și bare oblice duble.
Google are mecanisme pentru a identifica modele defecte în URL-uri și, din punct de vedere tehnic, este posibil ca Google să fi depistat greșeala. Deci, ar putea fi accesarea cu crawlere a whisky.de în consecință și indexarea adreselor URL structurate corect. Dar nu avem nicio modalitate de a verifica acest lucru fără acces la contul Google Search Console sau la jurnalele de server ale site-ului web.
În practică, nu ar trebui să vă bazați pe algoritmii Google pentru a vă remedia greșelile – practici precum cea pe care am descris-o vă pot pune sub presiune bugetul de accesare cu crawlere și chiar vă pot menține paginile în afara indexului Google.
Trimiterea adreselor URL de conținut subțire
Există o urgie de site-uri web care includ pagini de conținut subțire în hărțile lor de site.
Permiteți-mi să vă arăt un exemplu.
AnnTaylor
Am descoperit această greșeală pe AnnTaylor.com, un magazin de îmbrăcăminte pentru femei de top.
Am vrut să verific câte dintre categoriile lor de produse au fost indexate în Google, așa că am investigat sitemap-ul lor dedicat paginilor de categorii.
Verificarea inițială a arătat că doar 46% dintre paginile categoriei au fost indexate în Google.
Așadar, m-am uitat la asta mai detaliat și am aflat că majoritatea paginilor lor de categorie erau 404 soft.
Mai exact, aceste pagini afișau următorul mesaj:

Nu a fost surprinzător că Google nu a vrut să le indexeze!
Următorul pas logic a fost excluderea softului 404 din eșantionul meu. În acest scop, am verificat starea de indexare a aceluiași sitemap, dar am folosit un declanșator care exclude paginile care conțineau expresia „Am căutat cu stil și fără noroc”, așa cum este exemplificat în imaginea de mai sus.
S-a dovedit că, după excluderea adreselor URL soft 404, până la 82% dintre paginile din harta lor de site sunt indexate.
Totuși, 18% dintre paginile categoriei nu sunt indexate în Google - pe asta ar trebui să se concentreze SEO-ul lor.
Situația lui AnnTaylor este gravă din următoarele motive:
- În primul rând, Google irosește bugetul de accesare cu crawlere pentru accesarea cu crawlere a conținutului subțire.
- În plus, nu este un mister faptul că Google judecă calitatea pe trei niveluri: pagină, secțiune și la nivel de site. Google poate decide că paginile de categorii, în general, sunt de calitate scăzută și că toate ar putea fi deindexate . În trecut, sa întâmplat cu site-uri web precum Giphy, Instagram sau Pinterest, așa cum am descris într-unul dintre articolele mele. Să sperăm că nu i se va întâmpla lui AnnTaylor.
Omiterea adreselor URL valoroase
După cum am menționat deja, hărțile site-ului ajută Google să înțeleagă mai bine site-ul dvs. și să îl acceseze cu crawlere mai inteligent.
Cu toate acestea, am observat că multe site-uri web nu includ cele mai valoroase adrese URL în hărțile site-urilor.
Iată un exemplu.
GoodReads
Am verificat un eșantion general (preluat din toate adresele URL de pe sitemapurile ) pentru GoodReads și am aflat că doar 35% dintre ele au fost indexate.
Am fost foarte surprins, deoarece știu că este un site de foarte bună calitate. Știu că nu sunt singurul care vizitează GoodReads pentru a citi recenzii și pentru a afla dacă o anumită carte merită citită.
Apoi, am văzut că eșantionul pe care l-am verificat nu avea adrese URL cu cărți incluse. Așa că am decis să descarc toate sitemapurile lor.
Rezultatul: nu există adrese URL cu cărți în sitemap-uri.
De ce este un semn rău?
Există riscul ca Google să prioritizeze adresele URL găsite în hărțile site-urilor și, într-un fel, să omite accesarea paginilor de produse.
Disclaimer: GoodReads nu este clientul nostru. Deci, din punct de vedere tehnic, este posibil ca aceștia să aibă un sitemap privat trimis la Google Search Console.
Folosirea excesivă a parametrului <lastmod>
Unul dintre parametrii pe care îi puteți include în fișierul sitemap este <lastmod>, care specifică ultima dată când o pagină a fost actualizată. În acest fel, Google poate alege cu ușurință adresele URL care s-au schimbat recent.
Cu toate acestea, unele site-uri folosesc excesiv această tehnică. Iar acest lucru ar putea avea efecte adverse, deoarece, după cum citim în ghidul Google, „ Google folosește valoarea <lastmod> dacă este corectă în mod constant și verificabil (de exemplu prin compararea cu ultima modificare a paginii)”.
Să ne uităm la un exemplu de site care utilizează excesiv parametrul <lastmod>.
Avon
M-am uitat la harta site-ului produsului Avon și toate adresele URL listate au același parametru <lastmod> - ziua curentă:

Este sigur să presupunem că nu toate adresele URL ale Avon se schimbă zilnic, așa că Google este reticent să-și indexeze paginile.
Conectarea la mediul dvs. de organizare în sitemap-urile
Este destul de obișnuit ca Google să indexeze adresele URL de intermediar.
De obicei, este un mister modul în care Google găsește link-uri către astfel de pagini. Dar o explicație obișnuită este că aceste adrese URL sunt legate direct de pe sitemapurile.
Acehardware.com
Rețineți că acehardware.com a actualizat de atunci hărțile site-ului și a remediat greșeala de mai jos.
Iată o mostră pe care am verificat-o inițial.
După cum puteți vedea, am descoperit că aveau linkuri către site-ul de organizare de pe harta lor.

De ce este rău să includeți mediul dvs. de organizare într-un sitemap?
- Google accesează cu crawlere adrese URL inutile.
- Dacă adresele URL de pregătire sunt indexate, ele derutează utilizatorii care caută o anumită informație și dau peste ele în rezultatele căutării.
Cele mai bune practici de urmat în sitemapurile
Ați trecut prin prezentarea mea de ansamblu asupra lucrurilor de evitat atunci când creați și gestionați un sitemap pentru un site web.
Deci acum, care sunt câteva practici pe care ar trebui să le urmați?
Iată câteva dintre cele mai bune practici pe care le recomand:
– Includeți numai adrese URL canonice în sitemapurile dvs.
– Dimensiunea maximă a sitemap-ului trebuie să fie de 50.000 de adrese URL. Le puteți împărți în sitemap-uri mai mici dacă aveți mai multe adrese URL.
– Nu includeți ID-urile de sesiune de la adresele URL în sitemapurile – în acest fel, puteți reduce accesarea cu crawlere duplicată a adreselor URL date.
– Folosiți adrese URL consecvente și complete – includeți adrese URL absolute și nu relative.
După cum am menționat, asigurați-vă că sitemapurile dvs. includ numai adrese URL valoroase. Puteți efectua o accesare cu crawlere completă a site-ului web pentru a verifica dacă vreo adresă URL găsită într-o accesare cu crawlere lipsește din harta site-ului dvs.
Acesta este doar vârful aisbergului când vine vorba de optimizarea sitemap-ului dvs. - pentru recomandări suplimentare, citiți ghidul nostru final pentru sitemap-urile XML.
Încheierea
Sitemap-urile sunt valoroase pentru fiecare site web.
Cu toate acestea, după cum puteți vedea din exemplele de site-uri pe care le-am enumerat, multe site-uri populare nu au sitemap-uri optimizate, ceea ce are un cost - acoperirea indexului lor este puternic afectată.
De asemenea, rețineți că greșelile SEO din hărțile de site vă pot afecta negativ bugetul de accesare cu crawlere, ceea ce este crucial dacă aveți un site web mediu sau mare.
Sper că acum știți ce greșeli să evitați și că veți fi pe cale de a crea un sitemap care să ajute Google să vă acceseze cu crawlere site-ul mai eficient, ceea ce duce la o acoperire îmbunătățită a indexului.
