5 errori da evitare nelle tue Sitemap

Pubblicato: 2022-03-15

Abbiamo creato uno strumento che ci consente di controllare quante pagine di un determinato sito sono indicizzate in Google .

Finora, abbiamo controllato centinaia di siti Web e lo strumento ci ha aiutato a diagnosticare i problemi SEO che i nostri clienti stavano affrontando, come quelli legati al crawl budget e all'indicizzazione.

Spesso incontriamo anomalie nei dati quando esaminiamo questi problemi e vediamo molti siti Web con gravi errori nelle loro mappe dei siti.

In che modo questo potrebbe influire sul tuo sito web?

Se la tua mappa del sito non viene implementata correttamente, Googlebot può dedicare molto tempo alla scansione di URL di bassa qualità, il che è uno spreco di budget di scansione. Di conseguenza, molti URL preziosi sul tuo sito web potrebbero non essere indicizzati in Google , perché non avrà risorse sufficienti per scansionarli.

Quali errori commettono i siti Web popolari nelle loro mappe del sito e come evitarli per garantire che Google non stia sprecando il budget di scansione per contenuti irrilevanti?

Scendiamo.

I contenuti si nascondono
1 Qual è il crawl budget?
2 In che modo le mappe del sito sono importanti per il tuo crawl budget?
3 Quali errori dovresti evitare nella tua mappa del sito?
3.1 Invio di URL non corretti
3.1.1 Whisky.de
3.2 Invio di URL di contenuto sottile
3.2.1 Anna Taylor
3.3 Saltare URL preziosi
3.3.1 GoodReads
3.4 Uso eccessivo del parametro <lastmod>
3.4.1 Avon
3.5 Collegamento al proprio ambiente di staging all'interno delle mappe del sito
3.5.1 Acehardware.com
4 Migliori pratiche da seguire nelle mappe dei siti
5 Concludendo

Qual è il budget di scansione?

Innanzitutto, lascia che ti spieghi cos'è il crawl budget e in che modo è esattamente rilevante per l'indicizzazione del sito web.

Google è in grado di eseguire la scansione di molti contenuti, ma le sue risorse non sono infinite , quindi deve fare delle scelte con le risorse che ha.

Ecco perché Googlebot definisce un budget di scansione per tutti i siti web: il numero di URL che può e vuole scansionare.

Il budget di scansione di un sito dipende da due metriche :

  • Limite di capacità di scansione, calcolato per eseguire la scansione di tutti i contenuti importanti di un sito Web senza superare i limiti del suo server e,
  • Domanda di scansione: determinata dalle dimensioni, dalla popolarità e dalla frequenza di aggiornamento di un sito Web.

Se il sito rallenta o risponde con errori del server, il limite diminuisce e Googlebot esegue la scansione di meno.
fonte: documentazione di Google

A causa delle capacità limitate di Googlebot, dovresti pianificare quali URL esegue la scansione di Googlebot sul tuo sito web.

La chiave per modificare gli URL di cui eseguire la scansione è spiegata nella documentazione di Google:

Gestisci il tuo inventario URL: utilizza gli strumenti appropriati per indicare a Google quali pagine sottoporre a scansione e quali non sottoporre a scansione. Se Google dedica troppo tempo alla scansione di URL non appropriati per l'indice, Googlebot potrebbe decidere che non vale la pena esaminare il resto del tuo sito.
fonte: documentazione di Google

Per ricapitolare, ecco cosa sappiamo finora:

  • Se il tuo sito web è lento, Google potrebbe eseguire la scansione di meno URL, quindi un minor numero di URL troverà la loro strada nell'indice di Google,
  • Se Google è in grado di scoprire molti URL di bassa qualità durante la scansione del tuo sito, potrebbe decidere che la qualità complessiva del tuo sito è bassa.

Ecco un asporto cruciale:

Con tonnellate di URL di bassa qualità che Google può scansionare, Googlebot potrebbe perdere molto tempo a scansionarli e potrebbe non essere in grado di scansionare molti URL di alta qualità sul tuo sito web.

Questo ha il peso maggiore per i siti Web di grandi dimensioni o in rapida evoluzione perché devono essere scansionati spesso e ampiamente per attirare traffico.

In che modo le mappe del sito sono importanti per il tuo crawl budget?

Come ho spiegato, l'ottimizzazione del budget di scansione è un passaggio estremamente importante per l'indicizzazione del tuo sito.

Uno dei modi per gestire il tuo inventario URL è creare e mantenere una mappa del sito ben ottimizzata.  

Una mappa del sito è un file in cui fornisci informazioni su pagine, video e altri file sul tuo sito e le relazioni tra di loro […]. Una mappa del sito indica a Google quali pagine e file ritieni importanti nel tuo sito e fornisce anche informazioni preziose su questi file. Ad esempio, l'ultimo aggiornamento della pagina e qualsiasi versione in lingua alternativa della pagina.
fonte: documentazione di Google

Tuttavia, moltissimi siti Web non riescono a creare mappe dei siti ben ottimizzate. Fortunatamente, possiamo imparare dai loro errori.

Quali errori dovresti evitare nella tua mappa del sito?

Ho analizzato molti siti popolari e ho scoperto che molti di loro commettono errori nelle mappe dei siti che influiscono negativamente sul budget di scansione, il che potrebbe causare problemi con la copertura dell'indice.

Ecco la mia ripartizione degli errori da evitare durante la creazione di una mappa del sito.

  1. Invio di URL non corretti

Uno degli errori che ho scoperto riguardava la struttura degli URL nelle mappe dei siti.  

Analizziamolo guardando un esempio specifico.

Whisky.de

Quando ho visto le statistiche raccolte dal nostro software, sono rimasto sbalordito: hanno mostrato che lo 0% delle pagine di whisky.de inviate nelle mappe del sito erano indicizzate su Google.

Sapevo che non poteva essere vero, quindi ho studiato ulteriormente i dati.

La maggior parte degli URL nelle mappe dei siti di whisky.de sembravano validi:

  • erano canonici,
  • Non sono stati bloccati dal meta tag noindex robots,
  • Non sono stati bloccati dalla direttiva disallow in robots.txt,
  • Stavano rispondendo con un codice di stato 200.

Ma poi ho notato che tutti gli URL avevano doppie barre dopo il dominio di primo livello: dai un'occhiata a questo esempio:

  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaessern.html
  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
  • https://www.whisky.de//presse/pressespiegel/playboy.html

La doppia barra sembra un ovvio errore programmatico durante la generazione delle mappe dei siti ed è facile da correggere.

Tuttavia, le pagine incluse nelle Sitemap hanno tag canonici che puntano ai rispettivi URL, le loro versioni corrette con una singola barra.

Di conseguenza, è altamente probabile che Google stia visitando il doppio degli URL previsti: gli URL con le barre singole e le doppie barre.

Google ha meccanismi per individuare schemi difettosi negli URL e, tecnicamente parlando, è possibile che Google abbia individuato l'errore. Quindi, potrebbe eseguire la scansione di whisky.de di conseguenza e indicizzare gli URL strutturati correttamente. Ma non c'è modo per noi di verificarlo senza accedere all'account Google Search Console del sito Web o ai registri del server.

In pratica, non dovresti fare affidamento sugli algoritmi di Google per correggere i tuoi errori : pratiche come quella che ho descritto possono mettere a dura prova il tuo budget di scansione e persino tenere le tue pagine fuori dall'indice di Google.

Invio di URL di contenuto sottile

C'è una piaga di siti Web che includono pagine di contenuto sottile nelle loro mappe dei siti.

Lascia che ti mostri un esempio.

Ann Taylor

Ho scoperto questo errore su AnnTaylor.com, uno dei migliori negozi di abbigliamento femminile.

Volevo verificare quante delle loro categorie di prodotti erano indicizzate su Google, quindi ho studiato la loro mappa del sito dedicata alle pagine delle categorie.

Il controllo iniziale ha mostrato che solo il 46% delle pagine delle categorie erano indicizzate in Google.

Quindi, ho esaminato questo aspetto in modo più dettagliato e ho appreso che la maggior parte delle loro pagine di categoria erano soft 404.

In particolare, queste pagine visualizzavano il seguente messaggio:

prodotti anntaylor nessun risultato

Non è stata una sorpresa che Google non volesse indicizzarli!

Il passo logico successivo è stato quello di escludere i soft 404 dal mio campione. A tale scopo, ho verificato lo stato di indicizzazione della stessa mappa del sito, ma ho utilizzato un trigger che escludeva le pagine contenenti la frase "Abbiamo cercato con stile e senza fortuna" come esemplificato nell'immagine sopra.

Si è scoperto che dopo aver escluso gli URL soft 404, fino all'82% delle pagine nella loro mappa del sito di categoria sono indicizzate.  

Tuttavia, il 18% delle pagine di categoria non è indicizzato su Google : questo è ciò su cui i loro SEO dovrebbero concentrarsi.

La situazione di AnnTaylor è grave per i seguenti motivi:

  • Prima di tutto, Google sta sprecando il crawl budget per eseguire la scansione di contenuti sottili.
  • Inoltre, non è un mistero che Google giudichi la qualità su tre livelli: pagina, sezione e a livello di sito. Google potrebbe decidere che le pagine delle categorie, in generale, sono di bassa qualità e tutte potrebbero essere deindicizzate . In passato è successo a siti web come Giphy, Instagram o Pinterest, come ho descritto in uno dei miei articoli. Speriamo che non succeda ad AnnTaylor.

Saltare URL preziosi

Come ho già detto, le mappe dei siti aiutano Google a comprendere meglio il tuo sito Web e a scansionarlo in modo più intelligente.

Tuttavia, ho notato che molti siti Web non includono i loro URL più preziosi nelle mappe dei siti.

Ecco un esempio.

GoodReads

Ho controllato un campione generale (preso da tutti gli URL dalle mappe dei siti) per GoodReads e ho scoperto che solo il 35% di essi era indicizzato.

Sono rimasto molto sorpreso, poiché so che è un sito Web di altissima qualità. So di non essere l'unico che visita GoodReads per leggere recensioni e sapere se vale la pena leggere un determinato libro.

Poi, ho visto che il campione che abbiamo controllato non aveva URL con libri inclusi. Così ho deciso di scaricare tutte le loro sitemap.

Il risultato: nessun URL con libri nelle mappe dei siti.  

Perché è un brutto segno?

Esiste il rischio che Google dia la priorità agli URL trovati nelle mappe dei siti e in qualche modo salti la visita alle pagine dei prodotti.

Disclaimer: GoodReads non è nostro cliente. Quindi, tecnicamente parlando, è possibile che abbiano una mappa del sito privata inviata a Google Search Console.

Uso eccessivo del parametro <lastmod>

Uno dei parametri che puoi includere nel file della tua mappa del sito è <lastmod>, che specifica l'ultima volta che una pagina è stata aggiornata. In questo modo, Google può facilmente selezionare gli URL che sono stati modificati di recente.

Tuttavia, alcuni siti Web abusano di questa tecnica. E farlo potrebbe avere effetti negativi perché, come leggiamo nelle linee guida di Google, " Google utilizza il valore <lastmod> se è coerente e verificabile (ad esempio confrontandolo con l'ultima modifica della pagina) accurato".

Diamo un'occhiata a un esempio di un sito che abusa del parametro <lastmod>.

Avon

Ho esaminato la mappa del sito del prodotto Avon e tutti gli URL elencati hanno lo stesso parametro <lastmod> - il giorno corrente:

mappa del sito che mostra la data di <lastmod> come giorno corrente

È lecito ritenere che non tutti gli URL di Avon cambino ogni giorno, quindi Google è riluttante a indicizzare le sue pagine.

Collegamento al tuo ambiente di staging all'interno delle mappe del sito

È abbastanza comune per Google indicizzare gli URL di staging.  

Di solito è un mistero come Google trovi i collegamenti a tali pagine. Ma una spiegazione comune è che questi URL sono collegati direttamente dalle mappe del sito.

Acehardware.com

Nota che da allora acehardware.com ha aggiornato le mappe del sito e risolto l'errore di seguito.

Ecco un esempio che ho inizialmente controllato.

Come puoi vedere, ho scoperto che si stavano collegando al sito di staging dalla loro mappa del sito.

collegamenti al sito di staging all'interno della mappa del sito

Perché è sbagliato includere il tuo ambiente di staging in una mappa del sito?

  1. Google esegue la scansione degli URL non necessari.
  2. Se gli URL di staging sono indicizzati, confondono gli utenti che cercano una particolare informazione e inciampano su di essi nei risultati di ricerca.

Le migliori pratiche da seguire nelle mappe del sito

Hai esaminato la mia panoramica delle cose da evitare durante la creazione e la gestione di una mappa del sito per un sito web.

Quindi ora, quali sono alcune pratiche che dovresti seguire?

Ecco alcune buone pratiche che consiglio:

– Includi solo URL canonici nelle tue Sitemap.

– La dimensione massima della mappa del sito dovrebbe essere di 50.000 URL. Puoi suddividerli in mappe del sito più piccole se hai più URL.

Non includere gli ID di sessione dai tuoi URL nelle mappe del sito: in questo modo puoi ridurre la scansione duplicata degli URL indicati.

– Utilizza URL coerenti e completi: includi URL assoluti anziché relativi.

Come ho già detto, assicurati che le tue Sitemap includano solo URL di valore. Puoi eseguire una scansione completa del sito Web per verificare se nella mappa del sito mancano gli URL trovati durante la scansione.

Questa è solo la punta dell'iceberg quando si tratta di ottimizzare la tua mappa del sito: per ulteriori consigli, leggi la nostra guida definitiva alle mappe del sito XML.  

Avvolgendo

Le Sitemap sono preziose per ogni sito web.

Tuttavia, come puoi vedere dagli esempi di siti che ho elencato, molti siti Web popolari non hanno mappe dei siti ottimizzate, il che ha un costo: la loro copertura dell'indice è fortemente influenzata.

Inoltre, tieni presente che gli errori SEO nelle mappe dei siti possono influire negativamente sul tuo crawl budget, il che è fondamentale se hai un sito web di medie o grandi dimensioni.

Spero che ora tu sappia quali errori evitare e sarai sulla buona strada per creare una mappa del sito che aiuti Google a eseguire la scansione del tuo sito in modo più efficiente, portando a una migliore copertura dell'indice.