5 Fehler, die Sie in Ihren Sitemaps vermeiden sollten

Veröffentlicht: 2022-03-15

Wir haben ein Tool entwickelt, mit dem wir überprüfen können, wie viele Seiten einer bestimmten Website in Google indexiert sind .

Bisher haben wir Hunderte von Websites überprüft und das Tool hat uns geholfen, SEO-Probleme zu diagnostizieren, mit denen unsere Kunden zu tun hatten, z. B. solche im Zusammenhang mit dem Crawl-Budget und der Indexierung.

Bei der Untersuchung dieser Probleme stoßen wir häufig auf Datenanomalien und sehen viele Websites mit schwerwiegenden Fehlern in ihren Sitemaps.

Wie könnte sich dies auf Ihre Website auswirken?

Wenn Ihre Sitemap nicht richtig implementiert ist, kann der Googlebot viel Zeit damit verbringen, URLs von geringer Qualität zu crawlen, was eine Verschwendung von Crawling-Budget darstellt. Infolgedessen werden viele wertvolle URLs auf Ihrer Website möglicherweise nicht in Google indexiert , da Google nicht über ausreichende Ressourcen verfügt, um sie zu crawlen.

Welche Fehler machen beliebte Websites in ihren Sitemaps und wie vermeidet man sie, um sicherzustellen, dass Google das Crawl-Budget nicht für irrelevante Inhalte verschwendet?

Lassen Sie uns eintauchen.

Inhalt verstecken
1 Wie hoch ist das Crawl-Budget?
2 Wie wichtig sind Sitemaps für Ihr Crawl-Budget?
3 Welche Fehler sollten Sie in Ihrer Sitemap vermeiden?
3.1 Übermittlung fehlerhafter URLs
3.1.1 Whisky.de
3.2 Einreichen von Thin-Content-URLs
3.2.1 AnnTaylor
3.3 Überspringen wertvoller URLs
3.3.1 GoodReads
3.4 Überbeanspruchung des Parameters <lastmod>
3.4.1 Avon
3.5 Verlinkung zu Ihrer Staging-Umgebung innerhalb von Sitemaps
3.5.1 Acehardware.com
4 Best Practices für Sitemaps
5 Abschluss

Wie hoch ist das Crawl-Budget?

Lassen Sie mich zunächst erklären, was ein Crawl-Budget ist und wie genau es für die Indexierung von Websites relevant ist.

Google kann viele Inhalte crawlen, aber seine Ressourcen sind nicht unendlich – also muss es Entscheidungen mit den vorhandenen Ressourcen treffen.

Deshalb definiert der Googlebot für alle Websites ein Crawl-Budget – die Anzahl der URLs, die er crawlen kann und will.

Das Crawling-Budget einer Website hängt von zwei Metriken ab :

  • Crawl-Kapazitätslimit – berechnet, um alle wichtigen Inhalte auf einer Website zu crawlen, ohne die Grenzen des Servers zu überschreiten – und
  • Crawl-Nachfrage – bestimmt durch die Größe, Popularität und Aktualisierungshäufigkeit einer Website.

Wenn die Website langsamer wird oder mit Serverfehlern antwortet, sinkt das Limit und der Googlebot crawlt weniger.
Quelle: Dokumentation von Google

Aufgrund der eingeschränkten Möglichkeiten des Googlebots sollten Sie planen, welche URLs der Googlebot auf Ihrer Website crawlt.

Der Schlüssel zum Anpassen, welche URLs gecrawlt werden, wird in der Dokumentation von Google erklärt:

Verwalten Sie Ihr URL-Inventar: Verwenden Sie die entsprechenden Tools, um Google mitzuteilen, welche Seiten gecrawlt werden sollen und welche nicht. Wenn Google zu viel Zeit mit dem Crawlen von URLs verbringt, die nicht für den Index geeignet sind, entscheidet der Googlebot möglicherweise, dass es sich nicht lohnt, sich den Rest Ihrer Website anzusehen.
Quelle: Dokumentation von Google

Zur Erinnerung – hier ist, was wir bisher wissen:

  • Wenn Ihre Website langsam ist, crawlt Google möglicherweise weniger URLs, sodass weniger URLs den Weg in den Google-Index finden.
  • Wenn Google beim Crawlen Ihrer Website viele URLs mit geringer Qualität entdecken kann, entscheidet es möglicherweise, dass die Gesamtqualität Ihrer Website niedrig ist.

Hier ist ein entscheidender Imbiss:

Mit Tonnen von URLs mit geringer Qualität, die von Google gecrawlt werden müssen, kann der Googlebot beim Crawlen viel Zeit verlieren und möglicherweise viele URLs mit hoher Qualität auf Ihrer Website nicht crawlen.

Dies hat das größte Gewicht für große oder sich schnell ändernde Websites, da sie häufig und ausgiebig gecrawlt werden müssen, um Traffic anzuziehen.

Wie wichtig sind Sitemaps für Ihr Crawl-Budget?

Wie ich bereits erklärt habe, ist die Optimierung Ihres Crawling-Budgets ein äußerst wichtiger Schritt für die Indexierung Ihrer Website.

Eine Möglichkeit , Ihr URL-Inventar zu verwalten , besteht darin , eine gut optimierte Sitemap zu erstellen und zu pflegen.  

Eine Sitemap ist eine Datei, in der Sie Informationen über die Seiten, Videos und andere Dateien auf Ihrer Website und die Beziehungen zwischen ihnen bereitstellen […]. Eine Sitemap teilt Google mit, welche Seiten und Dateien Ihrer Meinung nach auf Ihrer Website wichtig sind, und liefert auch wertvolle Informationen zu diesen Dateien. Zum Beispiel wann die Seite zuletzt aktualisiert wurde und andere Sprachversionen der Seite.
Quelle: Dokumentation von Google

Unzählige Websites schaffen es jedoch nicht, gut optimierte Sitemaps zu erstellen. Zum Glück können wir aus ihren Fehlern lernen.

Welche Fehler sollten Sie in Ihrer Sitemap vermeiden?

Ich habe viele beliebte Websites analysiert und festgestellt, dass viele von ihnen Fehler in ihren Sitemaps machen, die sich negativ auf ihr Crawl-Budget auswirken, was zu Problemen mit ihrer Indexabdeckung führen kann.

Hier ist meine Aufschlüsselung der Fehler, die Sie beim Erstellen einer Sitemap vermeiden sollten.

  1. Übermittlung fehlerhafter URLs

Einer der Fehler, die ich entdeckte, betraf die Struktur von URLs in Sitemaps.  

Analysieren wir es anhand eines konkreten Beispiels.

Whisky.de

Als ich die von unserer Software gesammelten Statistiken sah, war ich fassungslos: Sie zeigte, dass 0 % der in Sitemaps eingereichten Seiten von whisky.de in Google indexiert waren.

Ich wusste, dass das nicht wahr sein konnte, also untersuchte ich die Daten weiter.

Die meisten URLs in den Sitemaps von whisky.de schienen gültig:

  • Sie waren kanonisch,
  • Sie wurden nicht durch das Robots-Meta-Tag noindex blockiert,
  • Sie wurden nicht durch die disallow-Anweisung in robots.txt blockiert,
  • Sie antworteten mit einem 200-Statuscode.

Aber dann bemerkte ich, dass alle URLs nach der Top-Level-Domain doppelte Schrägstriche hatten – sehen Sie sich dieses Beispiel an:

  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaessern.html
  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
  • https://www.whisky.de//presse/pressespiegel/playboy.html

Der doppelte Schrägstrich scheint ein offensichtlicher Programmfehler beim Generieren von Sitemaps zu sein, der leicht zu beheben ist.

Die in Sitemaps enthaltenen Seiten haben jedoch kanonische Tags, die auf die jeweiligen URLs verweisen – ihre korrekten Versionen mit einem einzelnen Schrägstrich.

Infolgedessen besucht Google mit hoher Wahrscheinlichkeit doppelt so viele URLs wie beabsichtigt: die URLs mit den einfachen Schrägstrichen und den doppelten Schrägstrichen.

Google verfügt über Mechanismen, um fehlerhafte Muster in URLs zu erkennen, und technisch gesehen ist es möglich, dass Google den Fehler entdeckt hat. Er könnte also whisky.de entsprechend crawlen und die korrekt strukturierten URLs indexieren. Ohne Zugriff auf das Google Search Console-Konto oder die Serverprotokolle der Website können wir dies jedoch nicht überprüfen.

In der Praxis sollten Sie sich nicht auf die Algorithmen von Google verlassen, um Ihre Fehler zu beheben – Praktiken wie die von mir beschriebene können Ihr Crawl-Budget belasten und Ihre Seiten sogar aus dem Google-Index heraushalten.

Einreichen von Thin-Content-URLs

Es gibt eine Plage von Websites, die Seiten mit dünnem Inhalt in ihren Sitemaps enthalten.

Lassen Sie mich Ihnen ein Beispiel zeigen.

AnnTaylor

Ich habe diesen Fehler auf AnnTaylor.com entdeckt, einem erstklassigen Geschäft für Damenbekleidung.

Ich wollte überprüfen, wie viele ihrer Produktkategorien in Google indiziert wurden, also habe ich ihre Sitemap für Kategorieseiten untersucht.

Die erste Überprüfung ergab, dass nur 46 % der Kategorieseiten in Google indexiert waren.

Also habe ich mir das genauer angesehen und festgestellt, dass die meisten ihrer Kategorieseiten weiche 404-Fehler sind.

Auf diesen Seiten wurde insbesondere die folgende Meldung angezeigt:

annaylor produkte keine ergebnisse

Es war keine Überraschung, dass Google sie nicht indizieren wollte!

Der nächste logische Schritt war , weiche 404-Fehler aus meiner Stichprobe auszuschließen. Zu diesem Zweck habe ich den Indizierungsstatus derselben Sitemap überprüft, aber einen Auslöser verwendet, der Seiten ausschloss, die den Satz „Wir haben stilvoll gesucht und kein Glück“ enthielten, wie im obigen Bild veranschaulicht.

Es stellte sich heraus, dass nach dem Ausschluss von Soft-404-URLs bis zu 82 % der Seiten in ihrer Kategorie-Sitemap indexiert sind.  

Dennoch sind 18 % der Kategorieseiten nicht in Google indexiert – darauf sollten sich ihre SEOs konzentrieren.

AnnTaylors Situation ist aus folgenden Gründen ernst:

  • Erstens verschwendet Google Crawl-Budget für das Crawlen von dünnen Inhalten.
  • Außerdem ist es kein Geheimnis, dass Google die Qualität auf drei Ebenen beurteilt: Seite, Abschnitt und Website-weit. Google kann entscheiden, dass Kategorieseiten im Allgemeinen von geringer Qualität sind und alle deindexiert werden könnten . In der Vergangenheit passierte es Websites wie Giphy, Instagram oder Pinterest, wie ich in einem meiner Artikel beschrieben habe. Hoffen wir, dass es AnnTaylor nicht passiert.

Überspringen wertvoller URLs

Wie ich bereits erwähnt habe, helfen Sitemaps Google dabei, Ihre Website besser zu verstehen und intelligenter zu crawlen.

Mir ist jedoch aufgefallen, dass viele Websites ihre wertvollsten URLs nicht in Sitemaps aufnehmen.

Hier ist ein Beispiel.

GoodReads

Ich habe eine allgemeine Stichprobe (aus allen URLs von Sitemaps ) auf GoodReads überprüft und festgestellt, dass nur 35 % von ihnen indexiert waren.

Ich war sehr überrascht, da ich weiß, dass es sich um eine sehr hochwertige Website handelt. Ich weiß, dass ich nicht der einzige bin, der GoodReads besucht, um Rezensionen zu lesen und zu erfahren, ob ein bestimmtes Buch lesenswert ist.

Dann sah ich, dass die von uns überprüfte Stichprobe keine URLs mit enthaltenen Büchern enthielt. Also beschloss ich, alle ihre Sitemaps herunterzuladen.

Das Ergebnis: keine URLs mit Büchern in Sitemaps.  

Warum ist es ein schlechtes Zeichen?

Es besteht die Gefahr, dass Google in Sitemaps gefundene URLs priorisiert und irgendwie den Besuch von Produktseiten überspringt.

Haftungsausschluss: GoodReads ist nicht unser Kunde. Technisch gesehen ist es also möglich, dass sie eine private Sitemap an die Google Search Console übermittelt haben.

Überbeanspruchung des Parameters <lastmod>

Einer der Parameter, die Sie in Ihre Sitemap-Datei aufnehmen können , ist <lastmod> und gibt an, wann eine Seite zuletzt aktualisiert wurde. Auf diese Weise kann Google kürzlich geänderte URLs problemlos auswählen.

Einige Websites verwenden diese Technik jedoch zu häufig. Und dies zu tun, könnte nachteilige Auswirkungen haben, denn wie wir in den Google-Richtlinien lesen, verwendet Google den <lastmod>-Wert, wenn er konsistent und überprüfbar (z. B. durch Vergleich mit der letzten Änderung der Seite) genau ist.“

Sehen wir uns ein Beispiel einer Website an, die den <lastmod>-Parameter übermäßig verwendet.

Avon

Ich habe mir die Produkt-Sitemap von Avon angesehen und alle aufgelisteten URLs haben denselben <lastmod>-Parameter – den aktuellen Tag:

Sitemap mit <lastmod>-Datum als aktuellem Tag

Man kann davon ausgehen, dass sich nicht alle URLs von Avon täglich ändern, daher zögert Google, seine Seiten zu indizieren.

Verlinkung zu Ihrer Staging-Umgebung innerhalb von Sitemaps

Es ist durchaus üblich, dass Google Staging-URLs indexiert.  

Es ist normalerweise ein Rätsel, wie Google Links zu solchen Seiten findet. Eine gängige Erklärung ist jedoch, dass diese URLs direkt von Sitemaps aus verlinkt sind.

Acehardware.com

Beachten Sie, dass acehardware.com seitdem die Sitemaps aktualisiert und den Fehler unten behoben hat.

Hier ist ein Beispiel, das ich zunächst überprüft habe.

Wie Sie sehen können, habe ich festgestellt, dass sie von ihrer Sitemap aus auf die Staging-Site verlinken.

Links zur Staging-Site innerhalb der Sitemap

Warum ist es schlecht, Ihre Staging-Umgebung in eine Sitemap aufzunehmen?

  1. Google crawlt unnötige URLs.
  2. Wenn Staging-URLs indexiert sind, verwirren sie Benutzer, die nach einer bestimmten Information suchen, und stolpern über sie in den Suchergebnissen.

Best Practices in Sitemaps zu befolgen

Sie sind meinen Überblick über Dinge durchgegangen, die Sie beim Erstellen und Verwalten einer Sitemap für eine Website vermeiden sollten.

Also, was sind einige Praktiken, die Sie befolgen sollten?

Hier sind einige Best Practices, die ich empfehle:

– Fügen Sie nur kanonische URLs in Ihre Sitemaps ein.

– Die maximale Größe der Sitemap sollte 50.000 URLs betragen. Sie können sie in kleinere Sitemaps aufteilen, wenn Sie mehr URLs haben.

Fügen Sie keine Sitzungs-IDs Ihrer URLs in Sitemaps ein – auf diese Weise können Sie das doppelte Crawlen der angegebenen URLs reduzieren.

– Verwenden Sie konsistente und vollständige URLs – verwenden Sie absolute statt relative URLs.

Stellen Sie , wie bereits erwähnt, sicher, dass Ihre Sitemaps nur wertvolle URLs enthalten. Sie können einen vollständigen Website-Crawl durchführen, um zu überprüfen, ob URLs, die bei einem Crawl gefunden wurden, in Ihrer Sitemap fehlen.

Dies ist nur die Spitze des Eisbergs, wenn es um die Optimierung Ihrer Sitemap geht – für weitere Empfehlungen lesen Sie unseren ultimativen Leitfaden zu XML-Sitemaps.  

Einpacken

Sitemaps sind für jede Website wertvoll.

Wie Sie jedoch an den Beispielen der von mir aufgelisteten Websites sehen können , haben viele beliebte Websites keine optimierten Sitemaps, was mit Kosten verbunden ist – ihre Indexabdeckung wird stark beeinträchtigt.

Denken Sie auch daran, dass SEO-Fehler in Sitemaps Ihr Crawl-Budget negativ beeinflussen können, was entscheidend ist, wenn Sie eine mittlere oder große Website haben.

Ich hoffe, Sie wissen jetzt, welche Fehler Sie vermeiden sollten, und Sie sind auf dem besten Weg, eine Sitemap zu erstellen, die Google hilft, Ihre Website effizienter zu crawlen, was zu einer verbesserten Indexabdeckung führt.