如何在 Google Search Console 中修復“已抓取 - 當前未編入索引”

已發表: 2021-12-28

Google 的文檔將 Crawled – 當前未索引狀態定義為:

該頁面已被 Google 抓取,但未編入索引。 將來可能會或可能不會被索引; 無需重新提交此 URL 進行抓取。
來源:谷歌

閱讀此說明可能會令人沮喪,尤其是當狀態影響到對您的業務很重要的頁面時。 谷歌的定義沒有說明發生了什麼以及你接下來可能會做什麼。 它只是說Googlebot 抓取了您的頁面,但由於某種原因,決定不將其編入索引。

根據我們的研究,已抓取 - 目前未編入索引狀態是索引覆蓋率報告中報告的最常見問題。 這意味著您可能已經體驗過它,或者您將來可能會體驗到它。

盡快解決問題至關重要。 畢竟,如果您的網頁沒有被索引,它就不會出現在搜索結果中,也不會從 Google 獲得任何自然流量。  

本文介紹了爬網的可能原因——目前不是索引狀態以及修復它們的方法

內容隱藏
1您在哪裡可以找到已抓取 - 當前未編入索引的狀態?
1.1指數覆蓋率報告
1.2 URL檢查工具
2報告錯誤:您的頁面可能實際上已被編入索引
3抓取的原因和解決方案 - 目前未編入索引狀態
3.1索引延遲
3.1.1解決方案
3.2頁面不符合質量標準
3.2.1解決方案
3.2.2用戶生成的內容
3.3頁面被取消索引
3.3.1解決方案
3.4網站架構問題
3.4.1解決方案
3.5重複內容
3.5.1解決方案
4已爬網 - 當前未編入索引與已發現 - 當前未編入索引
5總結

您在哪裡可以找到已抓取 - 當前未編入索引的狀態?

您可以在 Google Search Console中的索引覆蓋率報告和URL 檢查工具中找到狀態。

指數覆蓋率報告

已爬網——當前未編入索引屬於“已排除”類別,這表明Google 不認為該頁面未編入索引是錯誤的。  

這些頁面通常不編入索引,我們認為這是適當的。 這些頁面要么與已編入索引的頁面重複,要么被您網站上的某些機制阻止編入索引,或者由於我們認為不是錯誤的原因而未編入索引。
來源:谷歌
指數覆蓋率報告截圖

單擊“已抓取 - 當前未編入索引”狀態後,您將看到受影響的 URL 列表。 您應該檢查它並優先解決對您最有價值的頁面的問題。

該報告也可用於導出。 但是,您最多只能導出 1000 個 URL。 如果更多頁面受到影響,您可以通過過濾特定於站點地圖的頁面來增加導出 URL 的數量。 例如,如果您有兩個站點地圖,每個站點地圖有 1000 個 URL,您可以分別導出它們。

網址檢查工具

Google Search Console 中的 URL 檢查工具還可以通知您已抓取的 URL - 當前未編入索引。

Google Search Console 中的 URL 檢查工具報告特定 URL 的索引覆蓋率狀態,例如已抓取 - 目前未編入索引

該工具的頂部會通知您是否可以在 Google 上找到該 URL。 如果檢查的 URL 在索引覆蓋率報告中屬於排除類別,則 URL 檢查工具將報告以下內容:“該頁面不在索引中,但不是因為錯誤。”

下面,您可以找到有關被檢查 URL 的當前覆蓋狀態的更多具體信息——在上面的 URL 被抓取的情況下——當前未編入索引。

報告錯誤:您的頁面實際上可能已編入索引

在註意到 Crawled – current not indexed 狀態後,您應該做的第一件事是調查您的頁面是否真的沒有被索引。

標記為已抓取的頁面並不少見——目前未在索引覆蓋率報告中編入索引,而 URL 檢查工具表明該頁面實際上已編入索引。

URL 檢查工具允許您檢查有關特定 URL 的詳細信息,包括:

  • 索引問題,
  • 結構化數據錯誤,
  • 移動可用性,
  • 查看加載的資源(例如,JavaScript)。

您還可以請求為 URL 編制索引或查看頁面的呈現版本。

Google 的 John Muller 在 Google 的 SEO 辦公時間內解決了索引覆蓋率報告和 URL 檢查工具之間的差異問題:

我最近在 Twitter 上看到了一些類似的帖子,人們在其中看到了在 Search Console 中被標記為未編入索引的 URL。 然後,當您單獨檢查它們時,它們實際上已編入索引。 我還不知道那裡到底發生了什麼。 [...]我懷疑這更多的是時間問題——我們在 Search Console 報告中顯示它們,然後隨著時間的推移它們被編入索引。 然後在某個時候,他們會再次退出報告。 無論出於何種原因,退出所花費的時間比應有的要長一些。
資料來源:約翰·穆勒

正如約翰所說,這可能只是這兩個工具之間的延遲和數據同步問題,並且隨著時間的推移,索引覆蓋率報告中的狀態可能會更新。

但是,這並不總是只是延遲。 有時它是一個報告錯誤。

9 月,我們注意到我們的一些已編入索引的文章報告已被抓取——目前尚未編入索引。

這絕對不是延遲問題,因為舊文章也受到了影響。  

不久之後,包括 Lily Ray 在內的其他 SEO 開始注意到這個問題。

在這種情況下該怎麼辦? 哪個報告值得信賴?

通常 URL 檢查工具顯示的數據比索引覆蓋率報告更新。 這就是為什麼在被迫在這些報告之間進行選擇時,您應該始終更加信任 URL 檢查工具。

抓取的原因和解決方案 - 目前未編入索引狀態

現在,讓我們深入了解問題的根源——導致狀態出現的原因以及您可以採取哪些措施來解決它。

Google 沒有明確回答您的網頁被抓取但未編入索引的原因,但可能出現該狀態的原因有幾個,包括:

  • 索引延遲,
  • 頁面不符合質量標準,
  • 頁面被取消索引,
  • 網站架構問題,
  • 重複的內容問題。

索引延遲

谷歌訪問頁面的情況並不少見,但索引它需要一段時間。 互聯網無限大,谷歌需要優先考慮哪些頁面首先被索引。

在我的索引 SEO 終極指南中,我展示了熱門網站上的頁面需要多長時間才能被索引。 以下是我的一些調查結果:

  • 發布 1 天后,Google 僅將 56% 的可索引 URL 編入索引。
  • 2 週後,只有 87% 的 URL 被編入索引。

資料來源: Tomek Rudzki

如果您剛剛發布了您的頁面,它尚未被編入索引可能是完全正常的,您需要等待更長的時間讓 Google 為您的內容編入索引。

解決方案

您無法在短期內影響網頁的抓取和索引,但從長遠來看,您可以採取一些措施來幫助您的網站:

  • 創建索引策略以幫助 Google 優先考慮您網站上的正確頁面。 為此,您需要確定應將哪些頁面編入索引以及將其傳達給 Google 的最佳方法。
  • 確保有指向您關心的頁面的內部鏈接。 它將幫助 Google 找到頁面並了解有關其上下文的更多信息。
  • 創建一個優化良好的站點地圖。 這是一個簡單的文本文件,列出了您有價值的 URL。 谷歌將使用它作為路線圖,以更快地找到頁面。

頁面不符合質量標準

Google 無法索引 Internet 上的所有頁面。 它的存儲空間是有限的,這就是為什麼它需要過濾掉低質量的內容。

Google 的目標是提供最能滿足用戶意圖的最高質量頁面。 這意味著,如果頁面質量較低,Google 很可能會忽略它,從而將存儲空間留給更高質量的內容。 我們可以預期,未來的質量標準只會變得更加嚴格。

解決方案

作為網站所有者,您應該確保您的頁面提供高質量的內容。 檢查它是否可能滿足用戶的意圖,並在需要時添加優質內容。 Google 提供了一系列問題來幫助您確定內容的價值。 這裡是其中的一些:

  • 內容是否提供原始信息、報告、研究或分析?
  • 內容是否提供了深刻的分析或超出顯而易見的有趣信息?
  • 這是您想要添加書籤、與朋友分享或推薦的頁面嗎?
  • 如果內容借鑒了其他來源,它是否避免簡單地複製或重寫這些來源,而是提供大量的附加價值和原創性?

來源:谷歌

此外,您還可以使用 Google 質量評估者指南中關於質量內容的提示。 儘管該文檔主要是供搜索質量評估員評估網站質量的,但網站管理員可以使用它來獲得有關如何改進自己網站的一些見解。 如果您想了解更多信息,請查看我們的質量評估指南指南。

用戶生成內容

從質量的角度來看,用戶生成的內容可能是一個問題。

例如,假設您有一個論壇,並且有人提出問題。 儘管以後可能會有很多有價值的回复,但在抓取的時候,還沒有,所以穀歌可能會將頁面歸類為低質量的內容。

怎麼做才能保護自己免受這種情況的影響?

Quora 想出了一個很好的策略來解決這個問題。 每個未回答的問題在 URL 中都有“/unanswered/”前綴。

這是一個示例: https ://www.quora.com/unanswered/Are-you-really-happy-with-your-results  

robots.txt 文件會阻止 URL 中包含 /unanswered/ 的所有頁面。 這意味著 Googlebot 無法抓取它們。

一旦問題得到答复,URL 就會更改並可供抓取。 這樣,Quora會阻止訪問用戶生成的低質量內容。

頁面被取消索引

一個 URL 可能會受到“已爬網”的影響——目前沒有被索引狀態,因為它過去曾被索引,但谷歌決定隨著時間的推移將其取消索引。

如果您想知道為什麼某些內容可能會從索引中消失,很可能它們只是被更高質量的內容所取代。

此外,您應該注意算法更新。 有可能推出了一種新算法,並且您的頁面受到了它的影響。

不幸的是,去索引也可能是由谷歌方面的一個錯誤引起的。 例如, Search Engine Land 曾經因為谷歌錯誤地認為該網站被黑客入侵而被取消索引。

解決方案

去索引頁面的解決方案與其質量密切相關。 您應該始終確保您的頁面提供最優質的內容並且是最新的。 不要假設一旦一個頁面被索引,你就不需要再對它做任何事情了。 繼續監控它並在必要時實施更改和改進。

[...]核心更新後掉線的頁面沒有任何問題需要修復。 也就是說,我們理解那些在核心更新更改後表現不佳的人可能仍然覺得他們需要做點什麼。 我們建議您專注於確保您提供最好的內容。 這就是我們的算法所尋求的回報。
來源:谷歌

解決問題後,您可以將這些 URL 提交到 Google Search Console,以幫助 Google 更快地註意到更改。

網站架構問題

當 John Mueller 被問及頁面被標記為“已抓取”(目前未編入索引狀態)的可能原因時,他提到了另一個可能的原因——網站結構不佳。

讓我們想像一個情況,您有一個高質量的頁面,但谷歌找到它的唯一方法是因為您將它放在您的站點地圖中。

Google 可能會查看該頁面並對其進行抓取,但由於沒有內部鏈接,它會假設該頁面的價值低於其他頁面。 沒有語義或結構信息可以幫助它評估頁面。 這可能是 Google 決定專注於其他頁面並在抓取該頁面後將其排除在索引之外的原因之一。

解決方案

良好的網站架構是幫助您最大限度地提高被索引機會的關鍵。 它允許搜索引擎機器人發現您的內容並更好地理解頁面之間的關係。

這就是為什麼提供良好的網站架構並確保有指向您想要被索引的頁面的內部鏈接至關重要的原因。

如果您想了解有關網站結構的更多信息,請查看我們關於如何構建排名和轉換的網站的文章。  

重複內容

SEO 自由職業者 Adam Gent與 SEO 社區分享了一個有趣的案例他的頁面報告被抓取——目前沒有被索引,因為谷歌認為這是一個重複的頁面。

Google 希望向用戶呈現獨特且有價值的內容。 這就是為什麼當它在抓取過程中意識到某些頁面相同或幾乎相同時,它可能只索引其中一個。

通常,另一個在索引覆蓋率報告中被標記為“重複”。 但是,情況並非總是如此,有時 Google 會分配 Crawled - 目前未編入索引狀態。

目前尚不完全清楚為什麼 Google 可能會選擇 Crawled - 目前沒有針對重複內容的專用狀態編制索引。 一種可能的解釋是,在 Google 決定是否有更適合該頁面的狀態後,狀態將在稍後發生變化。

另一種選擇可能是報告錯誤 谷歌在分配狀態時可能只是犯了一個錯誤。 不幸的是,這種情況更具挑戰性,因為已爬網 - 目前未編入索引並不能為您提供與重複內容的專用狀態一樣多的信息。

如何檢查搜索結果中是否顯示重複頁面?

  1. 轉到未編入索引的頁面並複制隨機文本片段。
  2. 將 Google 搜索中的文本用引號括起來。
  3. 分析結果。 如果顯示帶有復製文本的不同 URL,則可能意味著您的頁面未編入索引,因為 Google 選擇了不同的 URL 來編入索引。

解決方案

首先,您應該確保創建原始頁面。 如有必要 - 添加獨特的內容。

不幸的是,重複的內容可能是不可避免的(例如,您有移動版和桌面版)。 您對搜索結果中顯示的內容沒有太多控制權,但您可以向 Google 提供有關原始版本的一些提示。

如果您發現索引了很多重複的內容,請評估以下元素:

  • 規範標籤——這些 HTML 標籤告訴搜索引擎哪些版本是原始版本。
  • 內部鏈接——確保內部鏈接指向您的原始內容。 谷歌可能會使用它作為哪個頁面更重要的指標。
  • XML 站點地圖——確保只有規範版本在您的站點地圖中。

請記住,這些只是提示,Google 沒有義務遵循它們。 在 Adam Gent 描述的案例中,Google 選擇了 RSS 提要版本進行索引,儘管許多規範化信號指向不同的原始 URL。 Adam 通過設置 404 以確保僅保留原始版本來解決該問題。 他還建議在所有提要 URL 上設置X-robots HTTP 標頭,以阻止它們被索引。

已爬網 - 當前未編入索引與已發現 - 當前未編入索引

已爬網 - 當前未編入索引狀態通常與索引覆蓋率報告中的另一個索引問題混淆:已發現 - 當前未編入索引。

這兩種狀態都表明該頁面未編入索引。 但是,對於 Crawled(目前未編入索引),Google 已經訪問了該頁面。 同時,在“已發現”(目前未編入索引)中,該 URL 為 Google 所知,但由於某種原因,它尚未被抓取。

已爬網 - 目前未編入索引已發現——目前未編入索引
Google 發現的頁面是的是的
Google 訪問的頁面是的
頁面索引

這些狀態的一些原因可能是相似的,包括質量差的頁面和內部鏈接問題。 但是,當您看到已發現 - 當前未編入索引狀態時,您需要另外調查 Google 無法或不想訪問該頁面的原因。 例如,它可能表示整個網站的整體質量存在問題、抓取預算問題或服務器過載。

包起來

已爬網——目前未編入索引主要與頁面質量相關,但實際上,它可以指示更多問題,例如網站架構或重複內容。

以下是文章中可以幫助您處理已抓取(目前未編入索引)狀態的主要內容:

  • 為您的頁面添加獨特且有價值的內容。 完成後,將這些 URL 提交到 Google Search Console。 這樣,谷歌可能會更快地註意到變化。
  • 檢查您的網站架構並確保有指向您有價值頁面的內部鏈接。
  • 決定哪些頁面應該和不應該被編入索引,以幫助 Google 優先考慮最有價值的 URL。

如果您需要幫助解決已抓取的問題——您的網站上當前未編入索引狀態,我們的技術 SEO 服務就是您所需要的。