Indicizzazione SEO 101: come creare una strategia di indicizzazione per il tuo sito web

Pubblicato: 2021-12-14

I motori di ricerca non dovrebbero indicizzare tutte le pagine del tuo sito web.

Anche se pensi che tutto sul tuo sito sia semplicemente fantastico, la maggior parte dei siti Web ha tonnellate di pagine che semplicemente non appartengono ai risultati di ricerca. E se permetti ai motori di ricerca di indicizzare quelle pagine, potresti dover affrontare conseguenze negative.

Ecco perché hai bisogno di una strategia di indicizzazione per il tuo sito. I suoi elementi chiave sono:

  • Decidere quali pagine vuoi che i motori di ricerca indicizzino e utilizzare metodi appropriati per massimizzare le loro possibilità di essere indicizzate,
  • Decidere quali pagine non devono essere indicizzate e come escluderle dalla ricerca senza limitare la tua potenziale visibilità di ricerca.

Decidere quali pagine devono o non devono essere indicizzate è difficile. Potresti trovare alcune linee guida e suggerimenti per pagine particolari, ma spesso sarai da solo.

E la scelta dei metodi appropriati per escludere quelle pagine dai risultati di ricerca richiede ancora più considerazione. Dovresti utilizzare il tag noindex o il tag canonico, bloccare la pagina in robots.txt o utilizzare un reindirizzamento permanente?

Questo articolo delineerà il processo decisionale che ti consentirà di creare una strategia di indicizzazione personalizzata per il tuo sito web.

Anche se potresti imbatterti in casi limite che non aderiscono alla logica che propongo, il processo sottolineato di seguito ti darà ottimi risultati nella stragrande maggioranza dei casi.

I contenuti si nascondono
1 Perché alcune pagine non dovrebbero essere indicizzate
1.1 Ottimizza il tuo budget di scansione
1.2 Non lasciare che contenuti di bassa qualità danneggino il tuo sito web
2 Metodi per il controllo dell'indicizzazione
2.1 Meta tag dei robot Noindex
2.2 Direttiva Disallow in robots.txt
2.3 Etichetta canonica
2.4 Reindirizzamento permanente
2.5 Mappe del sito XML
3 Come decidere quali pagine devono o non devono essere indicizzate
3.1 Pagine preziose per gli utenti
3.1.1 Pagine preziose per gli utenti che dovrebbero essere indicizzate
3.1.1.1 Contenuti unici e di alta qualità
3.1.1.2 Versione in lingua alternativa
3.1.2 Pagine preziose per gli utenti che non dovrebbero essere indicizzate
3.1.2.1 Duplicato o quasi duplicato di una pagina diversa
3.1.2.2 Pagine senza richiesta di ricerca
3.2 Pagine preziose solo per i motori di ricerca
3.3 Pagine non preziose per nessuno
4 Concludendo

Perché alcune pagine non dovrebbero essere indicizzate

Ci sono due ragioni principali per cui non dovresti volere che i motori di ricerca indicizzino tutte le tue pagine:

  • Aiuta a ottimizzare il crawl budget,
  • Molti contenuti di bassa qualità indicizzabili potrebbero danneggiare il modo in cui i motori di ricerca vedono il tuo sito web.

Ottimizza il tuo budget di scansione

I bot dei motori di ricerca possono eseguire la scansione di un numero limitato di pagine su un determinato sito web. Internet è infinitamente grande e scansionare tutto supererebbe le risorse che i motori di ricerca hanno.

La quantità di tempo e risorse che i bot dei motori di ricerca dedicano alla scansione del tuo sito web è chiamata budget di scansione. Se sprechi il crawl budget su pagine di bassa qualità, potrebbe non essere sufficiente per quelle più preziose che dovrebbero effettivamente essere indicizzate.

Prendendoti il ​​tempo necessario per decidere quali pagine desideri indicizzare, puoi ottimizzare il tuo crawl budget e assicurarti che i bot dei motori di ricerca non sprechino le loro risorse su pagine meno importanti.

Se vuoi saperne di più sull'ottimizzazione del budget di scansione, consulta la nostra Guida definitiva all'ottimizzazione del budget di scansione.

Non lasciare che contenuti di bassa qualità danneggino il tuo sito web

Se i motori di ricerca si rendono conto che hai molti contenuti di bassa qualità, potrebbero decidere di interrompere la scansione del tuo sito web con la stessa frequenza.

Tomek Rudzki, nella sua Guida definitiva all'indicizzazione SEO, ha definito questa " responsabilità collettiva ".

È un circolo vizioso:
  1. Google esegue la scansione delle pagine di bassa qualità.
  2. Google smette di visitare il sito Web con la stessa frequenza.
  3. Molte pagine non vengono mai scansionate da Google, anche se sono pagine di alta qualità.
  4. Ci sono pagine preziose che non sono indicizzate.

Questo mostra come il ranking, la scansione e l'indicizzazione sono interconnessi.

fonte: Tomasz Rudzki

Metodi per il controllo dell'indicizzazione

Esistono vari metodi che puoi utilizzare per controllare l'indicizzazione delle tue pagine, tra cui:

  • Meta tag dei robot Noindex,
  • Direttiva Disallow in robots.txt,
  • etichetta canonica,
  • Reindirizzamento permanente,
  • Mappa del sito XML.

Ciascuno dei metodi di cui sopra ha il proprio uso e funzione.

Meta tag dei robot Noindex

 <meta name="robot" content="noindex">

Se aggiungi la direttiva sopra alla sezione HTML <head> della tua pagina, i bot dei motori di ricerca capiranno che non dovrebbero indicizzarla. Eviterà che la pagina venga visualizzata nella pagina dei risultati dei motori di ricerca.

Dovresti usare questo tag se non vuoi che la pagina venga indicizzata, ma vuoi comunque che i bot dei motori di ricerca eseguano la scansione della tua pagina e, ad esempio, seguano i link su quella pagina.

Direttiva Disallow in robots.txt

 User-agent: *
Non consentire: /example/page.html

La direttiva disallow nel file robots.txt consente di bloccare l'accesso dei motori di ricerca alla pagina. Se un bot del motore di ricerca rispetta la direttiva, non eseguirà la scansione delle pagine non consentite e, di conseguenza, non verranno indicizzate.

Poiché la direttiva disallow limita la scansione, questo metodo può aiutarti a risparmiare il budget di scansione.

Nota: la direttiva disallow non è un modo corretto per bloccare l'accesso alle tue pagine sensibili. I bot dannosi ignorano il file robots.txt e possono comunque accedere al contenuto. Se vuoi assicurarti che alcune pagine non siano accessibili a tutti i bot, è meglio bloccarle con una password.

Etichetta canonica

 <link rel="canonical" href="https://www.example.com/page.html">

Un tag canonico è un elemento HTML che indica ai motori di ricerca quali URL duplicati sono quelli originali.

Utilizzando il tag canonico, specifichi esattamente quale versione di una pagina desideri venga indicizzata e visualizzata nei risultati della ricerca. Senza il tag canonico, non hai alcun controllo su quale versione della tua pagina viene indicizzata.

I bot dei motori di ricerca devono ancora eseguire la scansione della pagina per scoprire il tag canonico, quindi utilizzarlo non ti aiuterà a risparmiare il budget di scansione.

Reindirizzamento permanente

Il reindirizzamento 301 è un codice di risposta HTTP che indica un reindirizzamento permanente. Specifica che la pagina richiesta ha una nuova posizione e la vecchia pagina è stata rimossa dal server.

Quando utilizzi un reindirizzamento 301, gli utenti e i bot dei motori di ricerca non accederanno al vecchio URL. Invece, i segnali di traffico e ranking verranno reindirizzati alla nuova pagina.

L'utilizzo del reindirizzamento 301 è un buon metodo per salvare il budget di scansione. Stai diminuendo il numero di pagine disponibili sul tuo sito web, quindi i bot dei motori di ricerca hanno meno contenuti da scansionare.

Ricorda che dovresti reindirizzare solo a una pagina correlata. Il reindirizzamento a una pagina non correlata può confondere gli utenti. Inoltre, i bot dei motori di ricerca potrebbero non seguire il reindirizzamento e trattare la pagina come un soft 404.

Sitemap XML

Una mappa del sito XML è un file di testo che elenca gli URL che desideri vengano indicizzati dai motori di ricerca. Il suo scopo è aiutare i bot dei motori di ricerca a trovare facilmente le pagine che ti interessano.

Una mappa del sito ben ottimizzata non solo indirizza i motori di ricerca alle tue pagine preziose, ma ti aiuta anche a risparmiare il tuo budget di scansione. Senza di essa, i bot devono eseguire la scansione dell'intero sito per scoprire i tuoi preziosi contenuti.

Ecco perché le Sitemap dovrebbero elencare solo gli URL indicizzabili sul tuo sito web. Ciò significa che le pagine che inserisci nella mappa del sito dovrebbero essere:

  • Canonico,
  • Non bloccato dal meta tag noindex robots e
  • Non bloccato dalla direttiva disallow in robots.txt,
  • Rispondendo con 200 codice di stato.

Puoi saperne di più sull'ottimizzazione delle Sitemap nella nostra Guida definitiva alle Sitemap XML.

Come decidere quali pagine devono o non devono essere indicizzate

Per aiutarti a decidere quali pagine dovrebbero o non dovrebbero essere indicizzate, ho creato un albero decisionale con tutte le domande essenziali a cui devi rispondere.

albero decisionale con un titolo "dovrebbe essere indicizzata questa pagina"

Visualizza l'immagine a grandezza naturale.

Come puoi vedere sopra, la domanda fondamentale è: questa pagina è preziosa per qualcuno?

Ci sono tre possibili risposte a questa domanda:

  • La pagina è preziosa per gli utenti dei motori di ricerca (e motori di ricerca),
  • La pagina è preziosa per i motori di ricerca,
  • La pagina non vale per nessuno.

La linea di fondo è che solo le pagine importanti per gli utenti dovrebbero essere indicizzate. Tuttavia, anche in quella categoria, ci sono tipi di pagine che non dovrebbero essere indicizzate.

Analizziamolo.

Pagine preziose per gli utenti

Una pagina è preziosa per gli utenti dei motori di ricerca se fornisce una risposta alla loro ricerca o consente loro di navigare verso la risposta.  

Nella maggior parte dei casi, se una pagina è preziosa per gli utenti, dovrebbe essere indicizzata. Tuttavia, potrebbe esserci ancora una situazione in cui una pagina è preziosa per gli utenti ma non dovrebbe essere indicizzata.

Pagine preziose per gli utenti che dovrebbero essere indicizzate

Una pagina dovrebbe essere indicizzata se:

  • Fornisce contenuti unici e di alta qualità che portano traffico,
  • È una versione in lingua alternativa di una pagina di alta qualità diversa (se applicabile).
Contenuti unici e di alta qualità

Le pagine uniche e di alta qualità che portano traffico al tuo sito dovrebbero sicuramente arrivare alla tua mappa del sito. Assicurati di non bloccarli in robots.txt e che non abbiano il tag noindex meta robots.

Presta particolare attenzione alle pagine più preziose per la tua attività . Sono quelli che di solito portano la maggior parte della conversione. Pagine come:

  • Pagina iniziale,
  • Chi siamo e le pagine dei contatti,
  • Pagine con informazioni sul servizio che offri,
  • Articoli del blog che mostrano la tua esperienza,
  • Pagine con articoli specifici (come prodotti eCommerce),

dovrebbe essere sempre indicizzabile e dovresti monitorare regolarmente la loro indicizzazione.

Versione in lingua alternativa

I contenuti tradotti non vengono trattati come duplicati dai motori di ricerca. Infatti, i motori di ricerca vogliono sapere se sono disponibili versioni in più lingue per presentare la versione più adatta agli utenti in diversi paesi.

Se hai una versione in una lingua alternativa di una pagina, dovresti specificarla con un tag hreflang e inserire la pagina nella tua mappa del sito.

Puoi specificare i tag hreflang nella tua mappa del sito, HTML o entrambi. I tag Hreflang utilizzati nelle mappe dei siti vanno benissimo dal punto di vista dei motori di ricerca. Tuttavia, potrebbero essere difficili da verificare con strumenti SEO o plug-in del browser. Per questo motivo, il modo consigliato per aggiungere il tag è nel codice HTML e nella mappa del sito, o solo nel codice HTML.

Ricorda che ogni pagina deve specificare tutte le versioni linguistiche, inclusa la propria lingua.

Pagine preziose per gli utenti che non dovrebbero essere indicizzate

In alcune situazioni, le pagine possono essere utili per gli utenti, ma non dovrebbero comunque essere indicizzate. Le situazioni includono:

  • Contenuti duplicati o quasi duplicati,
  • Pagine senza richiesta di ricerca.
Duplicato o quasi duplicato di una pagina diversa

I bot dei motori di ricerca potrebbero considerare una pagina duplicata o quasi duplicata se:

  • Due o più URL diversi portano alla stessa pagina,
  • Due pagine diverse hanno contenuti molto simili.

Uno degli esempi più comuni di contenuto duplicato sono le pagine di categoria filtrate sui siti di eCommerce. Gli utenti possono applicare filtri per restringere i prodotti e trovare ciò che stanno cercando più rapidamente. Sfortunatamente, ogni filtro applicato potrebbe salvare i parametri nell'URL, creando più URL che portano alla stessa pagina.

Ad esempio, store.com/dresses/item e store.com/dresses/item?color=yellow potrebbero puntare allo stesso contenuto.

Altri motivi per contenuti duplicati o quasi duplicati riguardano:

  • Avere URL diversi per le versioni mobile e desktop,
  • Avere una versione stampata del tuo sito web, o
  • Creazione di contenuti duplicati per errore.

I rischi di avere contenuti duplicati indicizzabili includono:

  • Non avendo alcun controllo su quale versione potrebbe apparire nei risultati di ricerca. Ad esempio, se sono disponibili versioni stampate e regolari, i motori di ricerca potrebbero mostrare la versione stampata nella ricerca.
  • Dividendo i segnali di ranking tra più URL.
  • Aumentando drasticamente il numero di URL di cui i motori di ricerca devono eseguire la scansione.
  • Abbassare la tua posizione nelle SERP se i motori di ricerca decidono di voler manipolare il ranking (rara conseguenza).

Per evitare le conseguenze negative di avere contenuti duplicati, dovresti mirare a consolidarli . I modi principali per farlo includono tag canonici e reindirizzamenti 301.

I tag canonici sono l'opzione migliore se hai bisogno che tutte le pagine siano disponibili per gli utenti.

Un esempio di contenuto duplicato che dovrebbe rimanere disponibile sul tuo sito è quello che migliora l'esperienza utente. Ad esempio, quando gli utenti filtrano i prodotti su un sito di eCommerce, reindirizzarli potrebbe creare confusione per vari motivi, come un improvviso cambio di breadcrumb.

Inoltre, potrebbe essere necessario avere contenuti duplicati sul tuo sito quando hai versioni diverse per dispositivi diversi.

Con un reindirizzamento 301 , solo una delle pagine rimane disponibile sul tuo sito. Il resto verrà reindirizzato automaticamente.

Un reindirizzamento 301 potrebbe essere utile quando, ad esempio, hai due post di blog molto simili e decidi che solo uno dovrebbe rimanere sul tuo sito. Il codice di stato 301 reindirizzerà i segnali di traffico e ranking all'articolo scelto. È un metodo eccellente per ottimizzare il budget di scansione, ma puoi utilizzarlo solo quando desideri rimuovere la pagina duplicata.

Ricorda di apportare modifiche alla tua mappa del sito ogni volta che utilizzi reindirizzamenti permanenti. Dovresti inserire solo le pagine che rispondono con 200 codici di stato nella tua mappa del sito. Pertanto, se stai utilizzando il reindirizzamento 301 per consolidare i contenuti, solo la versione che rimane sul tuo sito Web dovrebbe rimanere nella mappa del sito.

Pagine senza richiesta di ricerca

Potresti avere buoni contenuti sul tuo sito che non hanno alcuna richiesta di ricerca. In altre parole, nessuno lo sta cercando. Questo potrebbe accadere quando scrivi di un hobby di nicchia o hai pagine con, ad esempio, una nota di ringraziamento per i tuoi utenti.

Queste pagine potrebbero non portare traffico o conversioni. Forse vuoi lasciarli perché integrano i viaggi degli utenti, ma non vuoi che siano la prima cosa che gli utenti vedono nei risultati della ricerca.

Se ritieni che gli utenti non debbano vedere una pagina specifica nei risultati di ricerca o che la pagina non porti traffico, non è necessario mantenerla indicizzata. In questo modo, i bot dei motori di ricerca possono concentrarsi sulle pagine che effettivamente generano traffico.

Per bloccare l'indicizzazione di una pagina senza richiesta di ricerca, utilizza il tag noindex meta robots. I bot non lo indicizzano, ma lo scansionano comunque e seguono i link su quella pagina, dando loro più contesto sul tuo sito web.

Pagine preziose solo per i motori di ricerca

Non tutte le pagine sono pensate per aiutare gli utenti. Alcuni di essi aiutano i motori di ricerca a conoscere il tuo sito Web e a scoprire i collegamenti.

Dai un'occhiata a questa pagina LinkedIn:

screenshot della pagina LinkedIn con un elenco di profili

Elenca tutti i profili degli utenti, rendendo facile per i motori di ricerca trovare tutti i collegamenti.

Da un lato, pagine come queste potrebbero confondere gli utenti e scoraggiarli dal rimanere sul sito. Non sono utili per loro, quindi non dovrebbero apparire nei risultati di ricerca e non dovrebbero essere indicizzati.

D'altra parte, sono utili per i motori di ricerca: migliorano i tuoi collegamenti interni.

Ecco perché la soluzione migliore è implementare i tag noindex meta robots, lasciare queste pagine fuori dalla tua mappa del sito e consentirne la scansione in robots.txt. Non verranno indicizzati, ma i bot li eseguiranno per indicizzazione.

Pagine non preziose per nessuno

Alcune pagine non sono preziose per gli utenti o per i motori di ricerca.

Alcuni di essi sono tenuti ad esistere sul tuo sito per legge, ad esempio, l'informativa sulla privacy, ma, siamo onesti, nessuno sta cercando questo tipo di contenuto. Ovviamente non puoi rimuoverli, ma non è necessario che vengano indicizzati perché nessuno vuole trovarli. In alcuni casi, potrebbero superare i contenuti più preziosi e "rubare" il traffico.

Le pagine senza valore includono anche contenuti sottili e di bassa qualità. Dovresti prestare particolare attenzione a loro, poiché possono danneggiare il modo in cui utenti e motori di ricerca percepiscono la qualità complessiva del tuo sito. Per ulteriori informazioni, fare riferimento al capitolo Contenuto di bassa qualità può danneggiare il tuo sito web .

Soprattutto, devi assicurarti che le pagine senza valore abbiano il tag noindex meta robots. Se non blocchi la loro indicizzazione, potrebbero danneggiare le tue classifiche e scoraggiare gli utenti dal visitare il tuo sito web.

Inoltre, se desideri ottimizzare il tuo budget di scansione, blocca queste pagine nel file robots.txt e rimuovi i link interni che rimandano ad esse. Questo ti aiuterà a risparmiare il budget di scansione per pagine più preziose.

Avvolgendo

Sapere quali delle tue pagine dovrebbero e non dovrebbero essere indicizzate e comunicarle ai robot dei motori di ricerca è fondamentale per creare una solida strategia di indicizzazione.

Massimizzerà le possibilità che il tuo sito web venga scansionato e indicizzato correttamente e assicurerà che i tuoi utenti possano trovare tutti i tuoi preziosi contenuti nei risultati di ricerca.

Ecco i punti chiave da tenere a mente durante la creazione della tua strategia di indicizzazione:

  • Quando decidi se una pagina deve essere indicizzata, chiediti se ha contenuto unico con valore per gli utenti. Le pagine uniche e di valore non devono essere bloccate dall'indicizzazione da parte dei tag noindex meta robots o bloccate dall'essere scansionate utilizzando le direttive di non autorizzazione robots.txt.
  • Se i tuoi contenuti di bassa qualità sono indicizzabili, possono influire negativamente sul tuo posizionamento e mettere le tue pagine preziose a rischio di non essere indicizzate.
  • Se sul tuo sito sono presenti contenuti duplicati o quasi duplicati, dovresti consolidarli con un tag canonico o un reindirizzamento 301.
  • Se una pagina non ha richieste di ricerca, non deve essere indicizzata: usa il noindex nel tag meta robots.
  • Le pagine che contengono contenuti o collegamenti utili solo ai motori di ricerca dovrebbero essere bloccate dall'indicizzazione utilizzando il tag noindex meta robots, ma non impedire loro di essere scansionate in robots.txt.
  • Se né gli utenti né i motori di ricerca traggono vantaggio dalla visita di una determinata pagina, dovrebbe essere impostata su noindex nel tag meta robots.
  • Se disponi di più versioni in lingue alternative della stessa pagina, mantienile indicizzabili. Usa il tag hreflang per aiutare i motori di ricerca a capire come sono correlate queste pagine.