Cosa sono i Soft 404 in SEO?

Pubblicato: 2022-02-17

Soft 404 non è un codice di stato HTTP ufficiale, ma un algoritmo avanzato che aiuta Google a rilevare se una pagina non esiste (o ha poco o nessun contenuto) anche se il codice di stato HTTP non lo indica.  

Tuttavia, l'algoritmo non è perfetto e Google potrebbe commettere un errore durante la classificazione di una pagina.

Indipendentemente dal motivo dei soft 404, hanno un impatto negativo sul tuo sito Web e riducono la tua visibilità nella ricerca organica.

Da questo articolo imparerai in che modo i soft 404 influiscono sul tuo sito, cosa può causarli e cosa puoi fare per risolverli.

I contenuti si nascondono
1 Che cos'è un soft 404?
2 In che modo i Soft 404 influenzano il tuo sito web
3 Come si rilevano i soft 404?
3.1 Rilevamento Soft 404 su dispositivi mobili rispetto a desktop
4 Cosa può causare un soft 404 e come risolverlo
4.1 La pagina 404 risponde con un codice di stato HTTP 200
4.2 Reindirizzamenti irrilevanti
4.3 Pagine con poco o nessun contenuto
4.4 Pagine contenenti 404 parole simili
4.5 Problema di rendering
5 Concludendo

Cos'è un soft 404?

I server comunicano con i client (ad es. browser o bot dei motori di ricerca) tramite codici di stato HTTP.

Se la richiesta di una pagina ha esito positivo, il server restituisce un codice di stato HTTP 200. Se la pagina è mancante, il server risponde con uno stato 404 (non trovato).

Quando gli utenti richiedono una pagina che non esiste, vedono un messaggio nel browser che indica che qualcosa è andato storto. Tuttavia, il messaggio visualizzato dal browser non sempre corrisponde al codice di stato HTTP.

È qui che entra in gioco il soft 404.

Soft 404 è un'etichetta che Google fornisce a una pagina quando sembra che la pagina non esista e, allo stesso tempo, restituisce un codice di stato HTTP 200 riuscito.

Se Google decide che una pagina è un soft 404, ne rallenta la scansione.

Se la vediamo [una pagina] come un soft 404, sarebbe come un 404 e rallenteremo la scansione di quel particolare URL perché non c'è niente qui – perché dobbiamo scansionarlo ogni giorno?
fonte: John Mueller

Il rilevamento dei soft 404 è essenziale dal punto di vista del motore di ricerca per due motivi:

  1. Google ha risorse limitate. Il Web è infinitamente grande ed è semplicemente impossibile eseguire la scansione di tutte le pagine. Ecco perché Google deve stabilire la priorità e scegliere quali pagine vale la pena scansionare. Tralasciare i soft 404 gli consente di concentrarsi su pagine più preziose, aumentando così l'efficienza di scansione.
  2. Google vuole presentare pagine di qualità ai suoi utenti. Se Google sospetta che una pagina non esista, è ovvio che nessuno la vuole trovare e non dovrebbe apparire nella pagina dei risultati di ricerca.

In che modo i Soft 404 influenzano il tuo sito web

Le conseguenze per il tuo sito web possono variare a seconda del tipo di pagine che Google ha classificato come soft 404.

Se Google aveva ragione e la pagina davvero non esiste, la conseguenza principale è sprecare il tuo crawl budget .

Il tuo budget di scansione indica il numero di pagine che Google può e vuole sottoporre a scansione del tuo sito web. Se, ad esempio, disponi di 100.000 pagine e il budget di scansione consente di eseguire la scansione di 50.000, è essenziale garantire che il budget venga speso per pagine preziose. Se Google spreca il tuo budget di scansione per eseguire la scansione di 404 morbidi, potrebbero non essere sufficienti per le pagine che contano di più per te e ti portano traffico.

L'altro lato della medaglia è quando Google commette un errore durante l'assegnazione dello stato e pensa che una pagina preziosa sia un 404 morbido. In questo caso, la pagina non verrà indicizzata e non porterà traffico organico.

Come puoi rilevare i soft 404?

Puoi controllare quali pagine Google segnala come soft 404 in Google Search Console nel rapporto sulla copertura dell'indice.

Accedi al rapporto facendo clic sull'opzione "Copertura" nella barra laterale.

Screenshot del rapporto sulla copertura dell'indice

Se Google ritiene che una pagina sia un soft 404, può assegnarle uno di questi due stati:

  • Soft 404 (Categoria esclusa), o
  • L'URL inviato sembra essere un Soft 404 (categoria di errore).

L'unica differenza tra questi stati è il modo in cui Google ha scoperto l'URL.

Nel caso dello stato "URL inviato sembra essere un Soft 404", Google lo ha trovato all'interno della tua mappa del sito (file di testo creato dai proprietari di siti Web che dovrebbe elencare solo le pagine che desideri vengano indicizzate). Nel frattempo, nel caso dello stato "Soft 404", Google ha trovato questo URL da solo.

È possibile visualizzare un elenco di singoli URL che segnalano soft 404 facendo clic su uno di questi stati. Questi dati sono disponibili per l'esportazione, ma esiste un limite di 1000 URL. Se desideri esportarne di più e avere più di una mappa del sito, puoi scaricare gli URL per ciascuna mappa del sito separatamente.

Il rapporto sulla copertura dell'indice non è l'unico posto in cui puoi vedere lo stato di un URL.

Nello strumento Controllo URL in Google Search Console, puoi ricontrollare i singoli URL. Se desideri controllare più di un URL, puoi utilizzare l' API di controllo degli URL e controllare fino a 2.000 URL contemporaneamente.

Se vedi una differenza tra gli stati nel rapporto sulla copertura dell'indice e lo strumento Controllo URL, potrebbe trattarsi solo di un ritardo nel rapporto sulla copertura dell'indice. In questo caso, fidati dello strumento Controllo URL poiché mostra dati più recenti.

Rilevamento Soft 404 su dispositivi mobili e desktop

Nel 2021, Google ha fornito un aggiornamento su come rileva i soft 404 su telefoni cellulari e dispositivi desktop.

Si è scoperto che lo stato potrebbe essere assegnato in modo diverso alle versioni mobile e desktop. Tuttavia, poiché Google Search Console segnala gli stati in base alla versione mobile, non ti mostrerà se solo la tua versione desktop è etichettata come soft 404.

In sostanza, quello che succede è che a volte vediamo pagine che sui desktop sembrano una pagina 404, quindi diciamo che questo è un soft 404 sul desktop, non abbiamo bisogno di indicizzarlo. E sui dispositivi mobili, sembra una pagina normale, quindi la indicizzeremo effettivamente lì.

[…] in Search Console, mostriamo soft 404, ma lo mostriamo per la versione mobile. Quindi se nella versione mobile va tutto bene dalla tua parte, allora in Search Console sembrerà che sia indicizzato normalmente […], mentre per desktop, se lo vediamo come un soft 404 lì, non sarai in grado di guardalo direttamente in Search Console.

fonte: John Mueller

Cosa può causare un soft 404 e come risolverlo

Esistono diversi motivi per cui Google potrebbe classificare una pagina come soft 404, tra cui:

  • pagina 404 che risponde con un codice di stato HTTP 200,
  • Reindirizzamenti irrilevanti,
  • Pagine con poco o nessun contenuto,
  • Pagine contenenti 404 parole simili,
  • Problemi di rendering.

404 pagina che risponde con un codice di stato HTTP 200

Se una pagina è, in effetti, una pagina 404, ma restituisce un codice di stato HTTP 200, Google la classificherà come un soft 404.

Questo è qualcosa di cui prestare particolare attenzione se si dispone di una pagina 404 personalizzata.  

Una pagina 404 personalizzata può essere utile ai tuoi utenti e consentire loro di esplorare il sito Web anche se la pagina che stavano cercando di raggiungere non esiste. Tuttavia, non è raro che queste pagine restituiscano un codice di stato HTTP 200.

Dovresti evitare questa situazione perché Google continua a eseguire la scansione di queste pagine, il che spreca il tuo budget di scansione.

La soluzione a questo problema è configurare il server per restituire il codice di stato corretto per le pagine che non esistono (404 non trovato).  

Reindirizzamenti irrilevanti

Il reindirizzamento a una pagina irrilevante è una cattiva pratica che potrebbe confondere gli utenti. Ecco perché se Google rileva che un reindirizzamento punta a una pagina non correlata, il motore di ricerca potrebbe non seguirlo e trattare la pagina come un soft 404.

Per risolvere il problema, reindirizza sempre alle pagine pertinenti.  

Guarda il contenuto dal punto di vista degli utenti. Ad esempio, se un utente stava cercando qualcosa di specifico, avrebbe senso che finisse sulla pagina a cui stai reindirizzando? È tematicamente rilevante? In caso contrario, forse c'è una pagina migliore che potrebbe rispondere al loro intento, o forse dovresti impostare una pagina 404 invece di un reindirizzamento.

Pagine con poco o nessun contenuto

Poco o nessun contenuto su una pagina potrebbe far pensare a Google che la pagina sia vuota e classificarla come un soft 404.

Un esempio può essere un sito Web di e-commerce con prodotti che entrano ed esauriscono frequentemente, portando a categorie di prodotti vuote.

La soluzione a questo problema non è così semplice come nei due casi precedenti.

Un modo per affrontare questo problema è bloccare l'indicizzazione delle pagine vuote. Dopotutto, se è una pagina vuota, non è utile per i tuoi utenti e non dovrebbe essere indicizzata. Puoi farlo aggiungendo un meta tag noindex (un tag HTML che dice ai motori di ricerca che non vuoi che questa pagina venga indicizzata).

Inoltre, vale la pena ripensare la struttura dell'intero sito web.

Hai molte categorie di prodotti che hanno, ad esempio, un solo prodotto? In tal caso, dovresti riconsiderare se queste categorie sono necessarie anche sul tuo sito web. Pagine come questa potrebbero essere considerate contenuti scarsi e possono influire negativamente sul tuo sito Web in due modi:

  • Possono sprecare il tuo crawl budget e
  • Se disponi di molte pagine indicizzabili di bassa qualità, Google potrebbe pensare che l'intero sito Web manchi di qualità e decidere di interrompere la scansione del tuo sito Web con la stessa frequenza.

Se vuoi saperne di più su quali pagine dovrebbero e non dovrebbero essere indicizzate, leggi il nostro articolo sulla creazione di una strategia di indicizzazione per il tuo sito web.

Pagine contenenti 404 parole simili

A volte gli algoritmi di Google identificano erroneamente una pagina se contiene parole che di solito compaiono su una pagina 404. Può accadere, ad esempio, sui siti Web di e-commerce quando la pagina di un prodotto utilizza termini come "esaurito", "prodotto non disponibile" o "non consegniamo nella tua posizione".

L'autore del post sopra ha risolto il problema semplicemente cancellando le parole che indicavano la consegna non disponibile.

Problema di rendering

Il rendering è un passaggio necessario affinché Google possa vedere i tuoi contenuti. Se il motore di ricerca non riesce a vederlo, potrebbe pensare che la pagina sia vuota e classificarla come soft 404.

Una delle cause dei problemi di rendering è il blocco di risorse come CSS o JavaScript in robots.txt. Robots.txt è un file che ti consente di specificare quali pagine i robot dei motori di ricerca possono eseguire la scansione e quali no. Se Google non può accedere alle risorse necessarie per il rendering, non sarà in grado di vedere il contenuto.

Per scoprire se Google esegue correttamente il rendering dei tuoi contenuti, utilizza lo strumento Controllo URL in Google Search Console. Puoi controllare i singoli URL e vedere come Google vede le tue pagine. Se il contenuto è mancante, indica un problema di rendering.

Per risolvere il problema, assicurati che Google abbia accesso alle risorse necessarie per il rendering. Esamina il tuo file robots.txt e assicurati che la scansione di CSS e JavaScript sia consentita.

Se vuoi saperne di più su come funziona il rendering, dai un'occhiata al nostro Manifesto SEO per il rendering: perché JavaScript SEO non è sufficiente.

Avvolgendo

Il monitoraggio dei soft 404 è importante per garantire che non danneggino il tuo sito Web sprecando il budget di scansione o lasciando pagine preziose fuori dall'indice.

Ecco i punti chiave dell'articolo per aiutarti a evitare i soft 404:

  • Se una pagina non esiste, assicurati che restituisca un codice di stato HTTP 404,
  • Quando crei un reindirizzamento, assicurati sempre di reindirizzare a contenuti pertinenti,
  • Non bloccare le risorse essenziali per il rendering come i file CSS o JavaScript nel tuo robots.txt,
  • Se hai pagine vuote, aggiungi il meta tag noindex o rimuovi queste pagine dal tuo sito,
  • Fai attenzione a usare frasi simili a 404. Se noti che la tua pagina, ad esempio con prodotto esaurito, è contrassegnata come soft 404, prova a rimuovere le parole o a utilizzare termini diversi.