站點地圖中要避免的 5 個錯誤

已發表: 2022-03-15

我們已經構建了一個工具,可以讓我們檢查給定網站上有多少頁面在 Google 中被編入索引

到目前為止,我們檢查了數百個網站,該工具幫助我們診斷了客戶正在處理的 SEO 問題,例如與抓取預算和索引相關的問題。

在調查這些問題時,我們經常會遇到數據異常,並且看到許多網站在其站點地圖中存在嚴重錯誤。

這對您的網站有何影響?

如果您的站點地圖沒有正確實施,Googlebot 可能會花費大量時間來抓取低質量的網址,這是對抓取預算的浪費。 因此,您網站上的許多有價值的 URL 可能不會在 Google 中編入索引,因為它沒有足夠的資源來抓取它們。

熱門網站在其站點地圖中犯了哪些錯誤,您如何避免這些錯誤以確保 Google 不會將抓取預算浪費在不相關的內容上?

讓我們深入挖掘。

內容隱藏
1抓取預算是多少?
2站點地圖對您的抓取預算有多重要?
3您應該在站點地圖中避免哪些錯誤?
3.1提交格式錯誤的 URL
3.1.1威士忌.de
3.2提交精簡內容 URL
3.2.1安泰勒
3.3跳過有價值的 URL
3.3.1好讀
3.4過度使用 <lastmod> 參數
3.4.1雅芳
3.5在站點地圖中鏈接到您的登台環境
3.5.1 Acehardware.com
4在站點地圖中遵循的最佳實踐
5總結

抓取預算是多少?

首先,讓我解釋一下什麼是抓取預算以及它與網站索引的關係。

谷歌能夠抓取大量內容,但它的資源並不是無限的——所以它需要對它擁有的資源做出選擇。

這就是 Googlebot 為所有網站定義抓取預算的原因——它可以和想要抓取的 URL 數量。

網站的抓取預算取決於兩個指標

  • 抓取容量限制 - 旨在抓取​​網站上的所有重要內容而不會超出其服務器的限制 - 並且,
  • 抓取需求——由網站的大小、受歡迎程度和更新頻率決定。

如果網站速度變慢或響應服務器錯誤,則限制會下降,Googlebot 抓取的次數也會減少。
來源:谷歌的文檔

由於 Googlebot 的功能有限,您應該計劃 Googlebot 在您的網站上抓取哪些網址。

Google 的文檔中解釋了調整抓取哪些 URL 的關鍵:

管理您的網址庫存:使用適當的工具告訴 Google 哪些網頁可以抓取,哪些網頁不可以抓取。 如果 Google 花費太多時間來抓取不適合索引的 URL,Googlebot 可能會認為不值得花時間查看您網站的其餘部分。
來源:谷歌的文檔

回顧一下——這是我們目前所知道的:

  • 如果您的網站速度較慢,Google 可能會抓取較少的網址,因此較少的網址會進入 Google 的索引,
  • 如果 Google 在抓取您的網站時能夠發現大量低質量的網址,則可能會判定您網站的整體質量較低。

這是一個關鍵的要點:

由於有大量低質量的 URL 供 Google 抓取,Googlebot 可能會浪費大量時間來抓取它們,並且可能無法抓取您網站上的許多高質量 URL。

這對於大型或快速變化的網站來說最重要,因為它們需要經常和廣泛地被抓取以吸引流量。

站點地圖對您的抓取預算有多重要?

正如我所解釋的,優化您的抓取預算對於您的網站索引而言是極其重要的一步。

管理 URL 庫存的方法之一創建和維護經過優化的站點地圖。  

站點地圖是一個文件,您可以在其中提供有關您站點上的頁面、視頻和其他文件的信息,以及它們之間的關係 […]。 站點地圖會告訴 Google 您認為哪些頁面和文件在您的站點中很重要,並且還提供有關這些文件的有價值的信息。 例如,上次更新頁面的時間以及頁面的任何替代語言版本。
來源:谷歌的文檔

但是,大量網站未能創建優化良好的站點地圖。 幸運的是,我們可以從他們的錯誤中吸取教訓。

您應該在站點地圖中避免哪些錯誤?

我分析了許多熱門站點,發現其中很多站點地圖中的錯誤會對爬網預算產生負面影響,這可能會導致索引覆蓋率出現問題。

這是我在創建站點地圖時要避免的錯誤細分。

  1. 提交格式錯誤的 URL

我發現的錯誤之一與站點地圖中的 URL 結構有關。  

讓我們通過一個具體的例子來分析它。

威士忌.de

當我看到我們的軟件收集的統計數據時,我驚呆了:它顯示在站點地圖中提交的whisky.de 頁面中有 0% 被 Google 索引了。

我知道這不可能是真的,所以我進一步調查了數據。

Whisky.de 站點地圖中的大多數 URL似乎都是有效的:

  • 他們是規範的,
  • 他們沒有被 noindex robots 元標記阻止,
  • 他們沒有被 robots.txt 中的 disallow 指令阻止,
  • 他們以 200 狀態碼響應。

但後來我注意到所有 URL 在頂級域之後都有雙斜杠 - 看看這個示例:

  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaessern.html
  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
  • https://www.whisky.de//presse/pressespiegel/playboy.html

雙斜杠在生成站點地圖時似乎是一個明顯的程序錯誤,而且很容易修復。

但是,站點地圖中包含的頁面具有指向相應 URL 的規範標籤——它們的正確版本帶有一個斜杠。

因此,Google 訪問的 URL 很可能是預期的兩倍:帶有單斜杠和雙斜杠的 URL。

谷歌有機制來發現 URL 中的錯誤模式,從技術上講,谷歌有可能發現了錯誤。 因此,它可能會相應地抓取whisky.de 並索引結構正確的URL。 但是,如果不訪問該網站的 Google Search Console 帳戶或服務器日誌,我們就無法進行檢查。

在實踐中,您不應該依賴 Google 的算法來修復您的錯誤——像我描述的那樣的做法可能會給您的抓取預算帶來壓力,甚至會使您的網頁不在 Google 的索引中。

提交精簡內容 URL

有許多網站在其站點地圖中包含薄內容頁面。

讓我給你看一個例子。

安泰勒

我在 AnnTaylor.com 上發現了這個錯誤,這是一家頂級的女裝商店。

我想檢查他們有多少產品類別在 Google 中被索引,所以我調查了他們專門用於類別頁面的站點地圖。

初步檢查顯示,只有 46% 的類別頁面在 Google 中被編入索引。

因此,我更詳細地研究了這一點,並了解到他們的大多數類別頁面都是軟 404。

具體來說,這些頁面顯示以下消息:

anntaylor 產品 無結果

Google 不想將它們編入索引也就不足為奇了!

下一個合乎邏輯的步驟是從我的樣本排除軟 404 。 為此,我檢查了同一個站點地圖的索引狀態,但使用了一個觸發器,該觸發器排除了包含“我們進行了時尚搜索,但沒有運氣”這一短語的頁面,如上圖所示。

事實證明,在排除軟 404 URL 後,其類別站點地圖中多達 82% 的頁面被編入索引。  

儘管如此,仍有18% 的類別頁面沒有在 Google 中編入索引——這是他們的 SEO 應該重點調查的內容。

AnnTaylor 的情況很嚴重,原因如下:

  • 首先,谷歌在抓取稀薄的內容上浪費了抓取預算。
  • 此外,谷歌從三個層面判斷質量並不是一個謎:頁面、部分和站點範圍。 一般而言,Google 可能會判定類別頁面質量低下,並且所有這些頁面都可能會被取消索引 過去,它發生在 Giphy、Instagram 或 Pinterest 等網站上,正如我在我的一篇文章中所描述的那樣。 讓我們希望它不會發生在 AnnTaylor 身上。

跳過有價值的 URL

正如我已經提到的,站點地圖可以幫助 Google 更好地了解您的網站並更智能地抓取它。

但是,我注意到許多網站沒有在站點地圖中包含其最有價值的 URL。

這是一個例子。

好讀

我檢查了 GoodReads 的一般樣本(取自站點地圖的所有 URL ),發現其中只有 35% 被編入索引。

我很驚訝,因為我知道這是一個非常高質量的網站。 我知道我不是唯一一個訪問 GoodReads 閱讀評論並了解某本書是否值得一讀的人。

然後,我看到我們檢查的樣本沒有包含書籍的 URL。 所以我決定下載他們所有的站點地圖。

結果:站點地圖中沒有包含書籍的 URL。  

為什麼這是一個不好的跡象?

谷歌可能會優先考慮站點地圖中的 URL,並以某種方式跳過訪問產品頁面。

免責聲明:GoodReads 不是我們的客戶。 因此,從技術上講,他們有可能將私人站點地圖提交到 Google Search Console。

過度使用 <lastmod> 參數

您可以在站點地圖文件中包含的參數之一是<lastmod>,指定頁面的最後一次更新時間。 通過這種方式,Google 可以輕鬆選擇最近更改的 URL。

但是,一些網站過度使用了這種技術。 這樣做可能會產生不利影響,因為正如我們在Google 的指南中所讀到的, 如果 <lastmod> 值始終如一且可驗證(例如通過與頁面的最後修改進行比較)準確,則 Google 會使用它。”

讓我們看一個過度使用 <lastmod> 參數的網站示例。

雅芳

我查看了Avon 的產品站點地圖,所有列出的 URL 都具有相同的 <lastmod> 參數——當天:

將 <lastmod> 日期顯示為當前日期的站點地圖

可以肯定的是,並非所有雅芳的 URL 每天都在變化,因此 Google 不願意為其網頁編制索引。

在站點地圖中鏈接到您的登台環境

Google 將暫存 URL 編入索引是很常見的。  

谷歌如何找到這些頁面的鏈接通常是一個謎。 但一個常見的解釋是這些 URL 是直接從站點地圖鏈接的。

Acehardware.com

請注意,acehardware.com 已經更新了站點地圖並解決了以下錯誤。

這是我最初檢查的樣本。

如您所見,我發現他們從他們的站點地圖鏈接到登台站點。

指向站點地圖中登台站點的鏈接

為什麼將您的登台環境包含在站點地圖中是不好的?

  1. Google 會抓取不必要的網址。
  2. 如果暫存 URL 被編入索引,它們會使尋找特定信息的用戶感到困惑,並在搜索結果中偶然發現它們。

在站點地圖中遵循的最佳實踐

您已經瀏覽了我在為網站創建和管理站點地圖時要避免的事情的概述。

那麼現在,您應該遵循哪些做法?

以下是我推薦的一些最佳實踐:

– 僅在站點地圖中包含規範 URL

– 最大站點地圖大小應為 50,000 個 URL。 如果您有更多 URL,您可以將它們分解為更小的站點地圖。

不要在站點地圖中包含來自您的 URL 的會話 ID – 這樣,您可以減少對給定 URL 的重複抓取。

– 使用一致且完整的 URL – 包括絕對而不是相對 URL。

正如我所提到的,請確保您的站點地圖僅包含有價值的 URL。 您可以執行完整的網站爬網,以檢查在爬網中找到的任何 URL 是否從您的站點地圖中丟失。

這只是優化站點地圖的冰山一角——有關進一步的建議,請閱讀我們的 XML 站點地圖終極指南。  

包起來

站點地圖對每個網站都很有價值。

然而,正如您從我列出的網站示例中看到的那樣,許多受歡迎的網站都沒有優化站點地圖,這是有代價的——它們的索引覆蓋率受到了嚴重影響。

此外,請記住,站點地圖中的 SEO 錯誤會對您的抓取預算產生負面影響,如果您擁有中型或大型網站,這一點至關重要。

我希望現在您知道要避免哪些錯誤,並且您將開始創建站點地圖,以幫助 Google 更有效地抓取您的網站,從而提高索引覆蓋率。