如何在 Google Search Console 中修復“已發現 - 當前未編入索引”

已發表: 2022-01-11

Google 的文檔將 Google 的索引覆蓋率報告中的已發現 - 當前未編入索引狀態定義為:

該頁面已被 Google 找到,但尚未被抓取。 通常,Google 想要抓取 URL,但這會導致網站超載; 因此谷歌重新安排了抓取時間。 這就是報告中最後一次抓取日期為空的原因。
資料來源:谷歌的索引覆蓋率報告

Tomek Rudzki 研究了 Google Search Console 中顯示的最常見的索引問題,並發現發現 - 目前未編入索引就是其中之一,緊挨著:

  • 重複內容,
  • 已爬網 - 目前未編入索引,
  • 軟 404 和
  • 抓取問題。

解決已發現 - 當前未編入索引的問題應該是優先事項,因為它會影響許多頁面,並表明您的某些頁面尚未被抓取並隨後被編入索引。

這個問題可能是由許多因素引起的,如果不加以解決,可能會導致某些頁面永遠無法進入 Google 的索引。 如果是這種情況,它們不會為您帶來自然流量並推動任何轉化。

本文深入探討了 Search Console 的索引覆蓋率報告的已發現 - 當前未編入索引部分,重點分析您的網頁為何會到達該位置以及如何解決可能導致該問題的任何問題。

內容隱藏
1在哪裡可以找到已發現 - 當前未編入索引狀態
2發現、爬取和索引
3如何使用已發現 - 當前未編入索引的報告部分
4當發現 - 當前未編入索引部分需要操作時
5 Discovered 的影響——目前未在小型和大型網站上編入索引
5.1啟動大型網站時
發現的6 個原因 - 當前未編入索引狀態以及如何修復它們
6.1內容質量問題
6.2內部鏈接問題
6.3抓取預算
6.3.1低質量內容
6.3.2內部鏈接結構不良
6.3.3實現重定向的錯誤
6.3.4服務器問題
6.3.5重度網站
6.4擁有一個新網站
6.5關於尋址的附加信息已發現——目前未編入索引
7已發現 - 當前未編入索引與已抓取 - 當前未編入索引
8總結

在哪裡可以找到已發現 - 當前未編入索引狀態

已發現 - 當前未編入索引是Google Search Console索引覆蓋率報告的問題類型之一該報告顯示您網站上頁面的抓取和索引狀態。

已發現 - 當前未編入索引出現在已排除類別中,其中包括 Google 尚未編入索引的 URL,但從 Google 的角度來看,這種情況不是錯誤的結果。

帶有排除部分的谷歌索引覆蓋率報告圖表

使用 Google Search Console 時,您可以單擊問題類型以查看受影響的 URL 列表。

您可能會發現您打算將一些報告的 URL 保留在索引之外 - 這很好。 但是您應該監控您有價值的頁面——如果其中任何一個沒有被索引,請檢查 Google 發現了哪些問題。

發現、爬取和索引

在繼續討論 Discovered 的特徵之前 - 目前未編入索引並解決此問題,讓我們澄清一下在 Google 上對 URL 進行排名需要什麼:

  • Google 需要先找到一個 URL ,然後才能對其進行抓取。 URL 最常通過內部或外部鏈接或XML 站點地圖發現,其中應包含所有應編入索引的頁面。
  • 通過抓取頁面,谷歌訪問它們並檢查它們的內容。 谷歌沒有資源來抓取它找到的所有頁面——這一事實是網站遇到的許多抓取問題的背後原因。
  • 索引期間 Google 會提取頁面內容並評估其質量。 獲得索引對於出現在搜索結果中並從 Google 獲得自然流量是必要的。 索引頁面根據眾多排名因素進行評估,確定它們如何響應用戶在 Google 中輸入的搜索查詢進行排名。

由於其資源的有限容量、不斷增長的網絡以及 Google 期望其索引的頁面具有一定的質量水平,因此被 Google 編入索引具有挑戰性。

許多與技術和內容相關的因素可能會導致您的頁面無法被抓取或編入索引。

有一些解決方案可以增加被索引的機會。 這些包括:

  • 具有優先抓取網站有價值部分的抓取策略,
  • 實現內部鏈接,
  • 創建包含所有應可索引的 URL 的準確站點地圖,以及
  • 編寫高質量、有價值的內容。

請務必仔細閱讀 Google 的文檔 - 有一節有關指南可讓 Google 更輕鬆地抓取您的網頁並將其編入索引。  

如何使用已發現 - 當前未編入索引的報告部分

已發現 - 當前未編入索引狀態是隨時了解任何潛在爬網問題的地方。

在本節中找到 URL 後,首先檢查它們是否應該被抓取。  

如果應該,請嘗試在報告中出現的 URL 中找到一種模式 這將幫助您確定這些 URL 的哪些方面可能導致問題。

例如,該問題可能涉及特定產品類別中的 URL、帶有參數的頁面或具有特定結構的頁面,導致它們都被視為瘦內容。

當發現 - 當前未編入索引部分需要操作時

已發現的 URL - 當前未編入索引並不總是要求您更改您的網站。

也就是說,如果出現以下情況,您無需執行任何操作:

  • 受影響的 URL 數量很少,並且隨著時間的推移保持穩定,或者
  • 該報告包含不應被抓取或編入索引的網址,例如帶有規範或“noindex”標籤的網址,或者那些在您的 robots.txt 文件中被阻止抓取的網址。

但是,控製本報告的部分仍然至關重要。

如果 URL 的數量增加,或者它們包含您希望排名並為您帶來大量自然流量的有價值的 URL,則需要您注意這些 URL。

Discovered 的影響——目前未在小型和大型網站上編入索引

已發現 - 當前未編入索引部分的影響可能因網站大小而異。

如果您有一個較小的網站(通常不超過 10k 個 URL),並且您的頁面具有高質量、獨特的內容,則“已發現”(目前未編入索引)狀態通常會自行解決。 Google 可能沒有遇到任何問題,只是尚未抓取列出的 URL。

小型網站通常不會處理抓取預算問題,並且由於內容質量問題或內部鏈接結構不佳,可能會出現報告頁面的激增。

已發現 - 當前未編入索引狀態對於大型網站(超過 1 萬個 URL)可能特別嚴重,並且適用於數千甚至數百萬個 URL。

在 Onely,我們發現包含超過 10 萬個 URL 的網站通常會遇到抓取問題,這通常源於浪費的抓取預算。

這些問題通常會發生在電子商務網站上 它們通常具有重複或稀薄的內容,或者包含缺貨或過期的產品。 此類頁面通常缺乏進入 Google 索引隊列所需的質量,更不用說被抓取了。

啟動大型網站時

如果您只是啟動一個大型網站,您可以從一開始就讓 Googlebot 的工作變得更輕鬆。

如果你想啟動一個大型站點,如果它包含許多空的或未完成的頁面,那麼你不應該立即啟動它的整個結構,這些頁面只會在以後更新。 Googlebot 會遇到這些頁面並認為它們質量低下,這會帶來從一開始就具有低抓取預算的風險。 這種情況甚至可能需要數年時間才能解決。

定期發佈內容時添加內容要好得多 這樣一來,Googlebot 從一開始就對您的質量產生了積極的印象。

在啟動之前,您應該始終制定索引和抓取策略,並知道 Google 應該訪問哪些頁面。

發現的原因 - 當前未編入索引狀態以及如何修復它們

通常,URL 將被歸類為已發現——由於內容質量、內部鏈接或爬網預算問題,目前未編入索引。

讓我們考慮一下為什麼您的網頁可能會出現這種狀態以及如何修復它。

內容質量問題

谷歌有它希望頁面達到的質量閾值,因為它無法抓取和索引網絡上的所有內容。

Google 可能會將您域中的某些頁面視為不值得抓取並跳過它們,優先考慮其他更有價值的內容。 因此,這些 URL 可以被標記為已發現——目前未編入索引。

值得注意的是,正如 John Mueller 所說,將 URL 設為 Discovered(目前未編入索引)通常不僅限於標記的頁面,而是可能是整個站點的內容質量問題 如果 Google 認為您的網站與網絡上的其他內容相比質量較差,它可能會跳過對您的網頁的抓取和索引。

要開始解決此問題,請查看受影響的 URL 列表並確保每個頁面都包含唯一的內容。 內容應滿足用戶的搜索意圖並解決特定問題。

我建議您閱讀 Google 在評估網站時遵循的質量評估指南——它將幫助您了解 Google 在網絡上找到的內容中尋找什麼。

同時,不要忘記您不應該將所有頁面都編入索引。  

一些低質量的頁面不應該被索引,例如:

  • 過時的內容(如舊新聞文章),
  • 由網站內的搜索框生成的頁面,
  • 通過應用過濾器生成的頁面,
  • 重複內容,
  • 自動生成的內容,
  • 用戶生成內容。

最好阻止此類部分在您的robots.txt 文件中被抓取和編入索引。  

2021 年 12 月 31 日的 SEO 辦公時間內, John Mueller 討論了對網站質量進行更改作為解決發現的一種方式 - 目前未編入索引:

[…]在網站上進行更大的質量更改需要相當長的時間才能讓 Google 系統適應。 […] 這更像是幾個月而不是幾天的事情。 [...] 因為需要一段時間才能獲得質量更改,所以我的建議是不要進行小的更改並等待看看它是否足夠好,而是要真正確保,如果您正在進行重大的質量更改, […] 質量真的很好改變 […]。 您不想等待幾個月然後決定,'哦,是的,我實際上也需要更改一些其他頁面。
資料來源:約翰·穆勒

內部鏈接問題

Googlebot 會跟踪您網站上的內部鏈接以發現其他頁面並了解它們之間的聯繫。 因此,請確保您最重要的頁面經常在內部鏈接。

Martin Splitt 在Rendering SEO 網絡研討會中談到了為什麼不正確的鏈接結構可能會出現問題

[…] 如果我們有大約一千個來自您的 URL,這些都只在站點地圖中,而我們在我們抓取的任何其他頁面中都沒有看到它們,我們可能會說,'我們不知道有多重要這真的是'[...]。 不要只將它放在站點地圖中,而是從您網站上的其他位置鏈接到它,這樣當我們抓取這些頁面時,我們會看到“啊哈! 所以這個頁面,這個頁面,這個頁面都指向這個產品頁面,所以也許它比這個只存在於站點地圖中的其他產品更重要[…]。
資料來源:馬丁斯普利特

正確的內部鏈接圍繞連接您的頁面以創建一個邏輯結構,幫助搜索引擎和用戶遵循您網站的層次結構。 內部鏈接還與您的站點架構的佈局方式相關聯。

幫助搜索引擎找到並為您的頁面分配適當的重要性包括:

  • 確定你的基礎內容是什麼,並確保它與其他頁面鏈接,
  • 在您的內容中添加上下文鏈接,
  • 基於其層次結構鏈接頁面,例如,通過將父頁面鏈接到子頁面,反之亦然,或在網站導航中包含鏈接,
  • 避免以垃圾郵件的方式放置鏈接和過度優化錨文本,
  • 包含指向相關產品或帖子的鏈接。

您還可以閱讀這篇關於改進內部鏈接結構的文章。  

抓取預算

抓取預算是 Googlebot 可以並且想要在網站上抓取的頁面數量

網站的抓取預算由以下因素決定:

  • 抓取速率限制 – Google 可以抓取多少個網址,根據您網站的功能進行調整,
  • 抓取需求——谷歌想要抓取多少個網址,基於它對網址的重視程度,通過查看它們的受歡迎程度和更新頻率。

浪費抓取預算會導致搜索引擎對您網站的抓取效率低下。 因此,您網站的一些基本部分可能會被跳過。

許多因素可能會導致抓取預算問題 - 它們包括:

  • 低質量的內容,
  • 內部鏈接結構差,
  • 實施重定向的錯誤,
  • 服務器超載,
  • 重磅網站。

在優化您的抓取預算之前,您應該了解 Googlebot 是如何抓取您的網站的。  

您可以通過導航到 Search Console 中另一個有用的工具——抓取統計報告來做到這一點。 此外,請檢查您的服務器日誌,以獲取有關 Googlebot 已抓取和跳過的資源的詳細信息。

以下是您應該考慮的 5 個方面,以優化您的抓取預算並讓 Google 抓取您網站上的一些已發現 - 當前未編入索引的頁面:

低質量的內容

如果 Googlebot 可以自由抓取低質量頁面,它可能沒有資源來獲取您網站上有價值的內容。

要阻止搜索引擎爬蟲爬取某些頁面,請在 robots.txt 文件中應用正確的指令。

您還應該確保您的網站具有正確優化的站點地圖,以幫助 Googlebot 在您的網站上發現獨特的、可索引的頁面並註意它們的變化。

站點地圖應包含:

  • 以 200 個狀態碼響應的 URL,
  • 沒有元機器人標記的 URL 會阻止它們被編入索引,以及
  • 只有您的頁面的規範版本。

內部鏈接結構不良

如果 Google 沒有找到足夠的指向 URL 的鏈接,它可能會因為沒有足夠的信號表明它的重要性而跳過抓取它。

遵循我在“內部鏈接問題”子章節中概述的指導方針。

實現重定向的錯誤

實施重定向可能對您的網站有益——但前提是做得正確。 每當 Googlebot 遇到重定向的 URL 時,它都必鬚髮送額外的請求才能到達目標 URL,這需要更多資源。

確保您堅持實施重定向的最佳實踐。 您可以將用戶和機器人從已從外部來源鏈接到工作頁面的 404 錯誤頁面重定向,這將幫助您保留排名信號。

但是,請確保您沒有鏈接到重定向頁面- 相反,更新它們以使其指向正確的頁面。 您還需要避免重定向循環和鏈接。

服務器問題

由於您的網站似乎超載,Google 可能會遇到抓取問題。 發生這種情況是因為影響爬網預算的爬網速率已根據您的服務器功能進行了調整。

在 Rendering SEO 的網絡研討會上,Martin Splitt 討論了有關 Google 抓取頁面的服務器問題:

[...] 我經常看到的一件事是服務器給出間歇性錯誤——特別是 500 左右——以及任何你的服務器以 500、501、502、504 響應的任何東西,都意味著你的服務器說“等等,我這裡有一個問題'[...],它可能隨時會崩潰,所以我們正在後退。 每當我們退後,並且您的服務器做出積極響應時,我們通常會再次緩慢上升。 想像一下每天有 500 多條的響應。

我們看到了這一點,我們正在後退一點,我們正在加速恢復——我們再次看到它[…]。 您應該查看您的服務器是否做出負面響應。

資料來源:馬丁斯普利特

如果您的站點上存在任何服務器問題,請諮詢您的託管服務提供商。

服務器問題也可能是由網絡性能不佳引起的——閱讀我們關於網絡性能和抓取預算的文章了解更多信息。  

重磅網站

某些頁面太重可能會導致抓取問題。 Google 可能只是沒有足夠的資源來抓取和呈現它們。

Googlebot 需要獲取以呈現您的頁面的每個資源都計入您的抓取預算。 在這種情況下,Google 會看到一個頁面,但會將其推入優先級隊列中。

您應該優化網站的 JavaScript 和 CSS 文件,以減少代碼的負面影響。

擁有一個新網站

Tomek Rudzki 創建了一個 Twitter 民意調查,他向 SEO 社區詢問新網站上的索引問題。 而且,根據民意調查結果,幾乎 40% 的人都遇到過這樣的問題:

在其中一個 SEO Office Hours 會議期間,一位參與者提出了他在 2 個月前推出的新網站,其中許多頁面被標記為已發現 - 目前未編入索引。 然後他問頁面應該以這種狀態顯示多長時間,約翰回答說:

那可能是永遠的[…]。 尤其是對於一個較新的網站,如果您有很多內容,那麼我會假設在一段時間內會發現很多新內容並且不會被索引。 然後隨著時間的推移,通常情況會發生變化。 就像,好吧,當我們看到更多地關注網站本身確實有價值時,它實際上已經被抓取或被索引。
資料來源:約翰·穆勒

通常,沒有快速修復讓頁面被索引的方法,但查看我之前描述的 SEO 方面可能會幫助您更好地獲得將它們編入索引的機會。

很明顯,谷歌希望確保它只索引高質量的內容,而這些質量閾值似乎正在提高。 但這對於需要一次又一次地向谷歌證明他們的內容值得被收錄在索引中的新網站來說尤其具有挑戰性。

有關尋址發現的附加信息 - 目前未編入索引

在 SEO 辦公時間,John Mueller 被問及如何解決網站上大約 99% 的 URL 卡在“已發現”——目前未編入索引的報告部分的問題。

John 的建議圍繞三個主要步驟展開:

[...] 首先,我可能會看 [...] 您不會意外生成具有不同 URL 模式的 URL,[...] 諸如 URL 中的參數之類的東西,大寫小寫,所有這些都可能導致實質上是重複的內容 如果我們發現了很多這樣的重複 URL,我們可能會認為我們實際上不需要抓取所有這些重複的 URL,因為我們已經有一些該頁面的變體 [...]。 確保通過內部鏈接,一切正常。 我們可以爬取您網站上的所有這些頁面並完成它。 您可以使用爬蟲工具或類似Screaming FrogDeep Crawl之類的工具對此進行粗略測試 [...] 他們基本上會告訴您他們是否能夠爬入您的網站,並向您顯示在該爬取過程中找到的 URL。 如果這種爬行有效,那麼我會非常關注這些頁面的質量 如果你說的是 2000 萬個頁面,其中 99% 沒有被索引,那麼我們只是索引了你網站的一小部分。 […] 說“好吧,如果我將頁數減少一半甚至 […] 到當前頁數的 10% 會怎樣”也許是有道理的。 [...] 通過在這些頁面上提供更全面的內容,您通常可以使那裡的內容質量更好一點。 對於我們的系統,查看這些頁面並說,'嗯,這些頁面 [...] 實際上看起來不錯。 我們應該去爬行和索引更多'。
資料來源:約翰·穆勒

在 2022 年 2 月 18 日的另一次辦公時間會議上,John 再次被問及大量 URL 似乎卡在“已發現 - 目前未編入索引”。

約翰確實說過,很多時候有很多頁面處於這種狀態是很正常的:

[...]在某種程度上,我只能接受 Google 無法抓取和索引所有內容。 [...] 例如,如果您發現 [...] 單個產品沒有被抓取和編入索引,請確保至少這些產品的類別頁面被抓取和編入索引。 因為這樣,人們仍然可以在您的網站上找到這些個別產品的一些內容 [...]。
資料來源:約翰·穆勒

搜索引擎優化社區的成員報告稱,標記為已發現的頁面數量有所增加——目前幾個月都沒有編入索引。 有些人正在測試解決此問題的替代解決方案。

Dan Shure 決定通過將卡住的內容移動到不同的 URL 來測試它,這導致它們實際上被編入索引。

因此,這些頁面中的許多似乎有可能在最初保持此狀態後就卡住了。

已發現 - 當前未編入索引與已抓取 - 當前未編入索引

這兩種狀態通常會混淆,儘管它們是相互關聯的,但它們的含義不同。

在這兩種情況下,URL 都沒有被編入索引,但是,對於 Crawled – 目前還沒有被編入索引,Google 已經訪問了該頁面 已發現 - 目前未編入索引,該頁面已被 Google 找到但尚未被抓取。

已爬網——當前索引通常是由索引延遲、內容質量問題、網站架構問題或頁面可能已被取消索引引起的。

我們還有一篇詳細的文章解釋瞭如何修復 Crawled - 目前未編入索引。

包起來

已發現 - 目前未編入索引往往是由頁面質量和爬網預算問題引起的。

解決這些問題 - 並幫助 Google 在未來有效和準確地抓取您的網頁 - 可能需要您檢查網頁的許多方面並對其進行優化。

以下是一些有助於避免發現問題的主要事項 - 目前未編入索引的頁面:

  • 使用 robots.txt 可防止 Googlebot 抓取低質量網頁,重點關注重複內容,例如由過濾器或您網站上的搜索框生成的網頁。
  • 花點時間創建一個合適的站點地圖,供 Google 用來發現您的頁面。
  • 保持您的網站架構完整,並確保您的關鍵頁面在內部鏈接。
  • 制定索引策略來確定對您最有價值的頁面的優先級。
  • 考慮到抓取預算進行優化。