索引 SEO 101:如何為您的網站創建索引策略

已發表: 2021-12-14

搜索引擎不應索引您網站上的所有頁面。

即使您認為您網站上的所有內容都很棒,但大多數網站都有大量根本不屬於搜索結果的頁面。 如果您讓搜索引擎索引這些頁面,您可能會面臨負面後果。

這就是為什麼您需要為您的網站制定索引策略 其關鍵要素是:

  • 確定您希望搜索引擎索引哪些頁面,並使用適當的方法最大限度地提高其被索引的機會,
  • 決定哪些頁面不應該被編入索引,以及如何在不限制潛在搜索可見性的情況下將它們從搜索中排除。

決定哪些頁面應該或不應該被索引是很困難的。 您可能會找到一些針對特定頁面的指南和提示,但您通常會靠自己。

選擇適當的方法從搜索結果中排除這些頁面需要更多的考慮。 您應該使用 noindex 標記還是 canonical 標記,在 robots.txt 中阻止頁面,還是使用永久重定向?

本文將概述允許您為您的網站創建自定義索引策略的決策過程

雖然您可能會遇到不符合我建議的邏輯的極端情況,但下面強調的過程將在絕大多數情況下為您提供出色的結果。

內容隱藏
1為什麼有些頁面不應該被索引
1.1優化你的抓取預算
1.2不要讓低質量的內容損害您的網站
2控制索引的方法
2.1 Noindex robots 元標記
2.2 robots.txt 中的 Disallow 指令
2.3規範標籤
2.4永久重定向
2.5 XML 站點地圖
3如何決定哪些頁面應該或不應該被索引
3.1對用戶有價值的頁面
3.1.1對用戶有價值的頁面應該被索引
3.1.1.1優質、獨特的內容
3.1.1.2替代語言版本
3.1.2對用戶有價值但不應被索引的頁面
3.1.2.1不同頁面的重複或接近重複
3.1.2.2無搜索需求的頁面
3.2僅對搜索引擎有價值的頁面
3.3對任何人都沒有價值的頁面
4總結

為什麼有些頁面不應該被索引

您不希望搜索引擎為您的所有頁面編制索引的主要原因有兩個:

  • 它有助於優化抓取預算,
  • 許多可索引的低質量內容可能會損害搜索引擎對您網站的看法。

優化您的抓取預算

搜索引擎機器人可以抓取給定網站上有限數量的頁面。 互聯網是無限大的,抓取一切都會超過搜索引擎擁有的資源。

搜索引擎機器人在抓取您的網站上花費的時間和資源稱為抓取預算。 如果您將抓取預算浪費在低質量頁面上,那麼實際上應該索引的最有價值的頁面可能就不夠了。

通過花時間決定要索引哪些頁面,您可以優化抓取預算並確保搜索引擎機器人不會將資源浪費在不太重要的頁面上。

如果您想了解有關優化抓取預算的更多信息,請查看我們的抓取預算優化終極指南。

不要讓低質量的內容損害您的網站

如果搜索引擎意識到您有很多低質量的內容,他們可能會決定停止經常抓取您的網站。

Tomek Rudzki 在他的索引 SEO 終極指南中稱其為“集體責任”。

這是一個惡性循環:
  1. Google 會抓取低質量的網頁。
  2. 谷歌經常停止訪問該網站。
  3. 許多頁面從未被 Google 抓取過,即使它們是高質量的頁面。
  4. 有一些有價值的頁面沒有被索引。

這顯示了排名、爬網和索引是如何相互關聯的。

資料來源: Tomasz Rudzki

控制索引的方法

您可以使用多種方法來控制頁面的索引,包括:

  • Noindex 機器人元標記,
  • robots.txt 中的 Disallow 指令,
  • 規範標籤,
  • 永久重定向,
  • XML 站點地圖。

上述每種方法都有自己的用途和功能。

Noindex 機器人元標記

<元名稱=“機器人”內容=“無索引”>

如果您將上述指令添加到頁面的 HTML <head> 部分,搜索引擎機器人將理解他們不應該將其編入索引。 它將阻止該頁面出現在搜索引擎的結果頁面上。

如果您不希望頁面被索引,您應該使用此標籤,但您仍希望搜索引擎機器人抓取您的頁面,例如,跟隨該頁面上的鏈接。

robots.txt 中的禁止指令

用戶代理: *
禁止:/example/page.html

robots.txt 文件中的 disallow 指令允許您阻止搜索引擎訪問該頁面。 如果搜索引擎機器人遵守該指令,它就不會抓取不允許的頁面,因此它們不會被編入索引。

由於 disallow 指令會限制抓取,因此此方法可以幫助您節省抓取預算。

注意: disallow 指令不是阻止對敏感頁面的訪問的正確方法。 惡意機器人會忽略 robots.txt 文件,但仍然可以訪問內容。 如果您想確保所有機器人無法訪問某些頁面,最好使用密碼阻止它們。

規範標籤

<link rel="canonical" href="https://www.example.com/page.html">

規範標籤是一個 HTML 元素,它告訴搜索引擎哪些重複的 URL 是原始 URL。

使用規範標籤,您可以準確指定要索引並顯示在搜索結果中的頁面版本。 如果沒有規範標籤,您將無法控制您的頁面的哪個版本被編入索引。

搜索引擎機器人仍然需要抓取頁面以發現規範標籤,因此使用它不會幫助您節省抓取預算。

永久重定向

301 重定向是指示永久重定向的 HTTP 響應代碼。 它指定請求的頁面有一個新位置,並且舊頁面已從服務器中刪除。

當您使用 301 重定向時,用戶和搜索引擎機器人不會訪問舊 URL。 相反,流量和排名信號將被重定向到新頁面。

使用 301 重定向是節省抓取預算的好方法。 您正在減少網站上可用頁面的數量,因此搜索引擎機器人可以抓取的內容更少。

請記住,您應該只重定向到相關頁面。 重定向到不相關的頁面可能會使用戶感到困惑。 此外,搜索引擎機器人可能不會遵循重定向並將頁面視為軟 404。

XML 站點地圖

XML 站點地圖是一個文本文件,其中列出了您希望搜索引擎索引的 URL。 其目的是幫助搜索引擎機器人輕鬆找到您關心的頁面。

一個經過優化的站點地圖不僅可以將搜索引擎引導到您有價值的頁面,還可以幫助您節省抓取預算。 沒有它,機器人需要爬取整個網站以發現您有價值的內容。

這就是為什麼站點地圖應該只列出您網站上的可索引 URL。 這意味著您放入站點地圖的頁面應該是:

  • 典範,
  • 未被 noindex robots 元標記阻止,並且
  • 未被 robots.txt 中的 disallow 指令阻止,
  • 響應 200 狀態碼。

您可以在我們的 XML 站點地圖終極指南中了解有關優化站點地圖的更多信息

如何決定哪些頁面應該或不應該被索引

為了幫助您決定哪些頁面應該或不應該被索引,我創建了一個決策樹,其中包含您需要回答的所有基本問題。

標題為“應將此頁面編入索引”的決策樹

以全尺寸查看圖像。

正如您在上面看到的,基本問題是:這個頁面對任何人都有價值嗎?

這個問題有三個可能的答案:

  • 該頁面對搜索引擎用戶(和搜索引擎)很有價值,
  • 該頁面對搜索引擎有價值,
  • 該頁面對任何人都沒有價值。

底線是只有對用戶有價值的頁面才應該被索引。 但是,即使在該類別中,也有一些類型的頁面不應該被編入索引。

讓我們分解一下。

對用戶有價值的頁面

如果頁面為搜索引擎用戶提供了搜索答案或允許他們導航到答案,則該頁面對搜索引擎用戶很有價值。  

在大多數情況下,如果頁面對用戶有價值,則應將其編入索引。 但是,仍然可能存在頁面對用戶有價值但不應該被索引的情況。

對用戶有價值的頁面應該被索引

如果出現以下情況,則應將頁面編入索引:

  • 它提供高質量、獨特的內容,帶來流量,
  • 它是不同高質量頁面的替代語言版本(如果適用)。
高質量、獨特的內容

為您的網站帶來流量的高質量、獨特的頁面絕對應該出現在您的站點地圖中。 確保您沒有在 robots.txt 中阻止它們,並且它們沒有 noindex 元機器人標籤。

特別注意對您的業務最有價值的頁面 他們通常會帶來最多的轉化。 像這樣的頁面:

  • 主頁,
  • 關於我們和聯繫頁面,
  • 包含有關您提供的服務的信息的頁面,
  • 展示您的專業知識的博客文章,
  • 包含特定項目(如電子商務產品)的頁面,

應該始終是可索引的,並且您應該定期監視它們的索引。

替代語言版本

搜索引擎不會將翻譯的內容視為重複內容。 事實上,搜索引擎想知道您是否有多種語言版本可用於向不同國家/地區的用戶展示最合適的版本。

如果您有頁面的替代語言版本,您應該使用hreflang 標籤指定它並將頁面放入您的站點地圖中。

您可以在站點地圖、HTML 或兩者中指定 hreflang 標記。 從搜索引擎的角度來看,站點地圖中使用的 Hreflang 標籤非常好。 但是,它們可能難以使用 SEO 工具或瀏覽器插件進行驗證。 出於這個原因,添加標籤的推薦方式是在 HTML 代碼和站點地圖中,或僅在 HTML 代碼中。

請記住,每個頁面都需要指定所有語言版本,包括其自己的語言。

對不應編入索引的用戶有價值的頁面

在某些情況下,頁面可能對用戶有價值,但它們仍然不應該被索引。 情況包括:

  • 重複或接近重複的內容,
  • 沒有搜索需求的頁面。
不同頁面的重複或接近重複

如果出現以下情況,搜索引擎機器人可能會認為頁面重複或接近重複:

  • 兩個或多個不同的 URL 指向同一個頁面,
  • 兩個不同的頁面具有非常相似的內容。

重複內容的最常見示例之一是電子商務網站上的過濾類別頁面。 用戶可以應用過濾器來縮小產品範圍並更快地找到他們想要的東西。 不幸的是,每個應用的過濾器都可能將參數保存在 URL 中,從而創建多個指向同一頁面的 URL。

例如,store.com/dresses/item 和 store.com/dresses/item?color=yellow 可能指向相同的內容。

重複或接近重複內容的其他原因包括:

  • 移動版和桌面版具有不同的 URL,
  • 擁有您網站的印刷版,或
  • 錯誤地創建重複的內容。

具有可索引重複內容的風險包括:

  • 無法控制可能出現在搜索結果中的版本。 例如,如果您有可用的印刷版和普通版,搜索引擎可能會在搜索中顯示印刷版。
  • 在多個 URL 之間劃分排名信號。
  • 大幅增加搜索引擎需要抓取的 URL 數量。
  • 如果搜索引擎決定您要操縱排名(罕見的後果),則降低您在 SERP 中的位置。

為避免重複內容的負面影響,您應該致力於整合它。 執行此操作的主要方法包括規範標籤和 301 重定向。

如果您需要所有頁面都可供用戶使用,那麼規範標籤是最佳選擇。

應該在您的網站上保持可用的重複內容的一個示例是改善用戶體驗的內容。 例如,當用戶在電子商務網站上過濾產品時,重定向它們可能會由於各種原因而造成混淆,例如麵包屑的突然變化。

此外,當您為不同的設備提供不同的版本時,可能需要在您的網站上包含重複的內容。

使用301 重定向,您的網站上只有一個頁面保持可用。 其餘的將自動重定向。

例如,當您有兩篇非常相似的博客文章並決定只保留一篇在您的網站上時,301 重定向可能會有所幫助。 301 狀態代碼會將流量和排名信號重定向到您選擇的文章。 這是優化抓取預算的絕佳方法,但只有在您想要刪除重複頁面時才能使用它。

每當您使用永久重定向時,請記住在您的站點地圖中進行更改。 您應該只在站點地圖中放置響應 200 個狀態代碼的頁面。 因此,如果您使用 301 重定向來整合內容,則只有保留在您網站上的版本應該保留在站點地圖中。

沒有搜索需求的頁面

您的網站上可能有沒有任何搜索需求的優質內容。 換句話說,沒有人在尋找它。 這可能發生在您正在撰寫有關利基愛好的文章或頁面中包含例如“感謝您”的用戶說明時。

這些頁面可能不會帶來流量或轉化。 也許您想離開它們是因為它們補充了用戶的旅程,但您不希望它們成為用戶在搜索結果中看到的第一件事。

如果您認為用戶不應該在搜索結果中看到特定頁面,或者該頁面不會帶來任何流量,則無需將其編入索引。 這樣,搜索引擎機器人可以專注於真正為您帶來流量的頁面。

要阻止對沒有搜索需求的頁面進行索引,請使用 noindex 元機器人標籤。 機器人不會將其編入索引,但它們仍會抓取並跟踪該頁面上的鏈接,從而為它們提供有關您網站的更多背景信息。

僅對搜索引擎有價值的頁面

並非所有頁面都旨在幫助用戶。 其中一些幫助搜索引擎了解您的網站並發現鏈接。

看看這個LinkedIn頁面:

帶有個人資料列表的 LinkedIn 頁面的屏幕截圖

它列出了所有用戶的個人資料,使搜索引擎可以輕鬆找到所有鏈接。

一方面,這樣的頁面可能會使用戶感到困惑並阻止他們留在網站上。 它們對他們沒有價值,因此它們不應出現在搜索結果中,也不應被編入索引。

另一方面,它們對搜索引擎很有用——它們可以增強您的內部鏈接。

這就是為什麼最好的解決方案是實施 noindex 元機器人標籤,將這些頁面排除在站點地圖之外,並允許它們在 robots.txt 中進行抓取。 它們不會被索引,但機器人會抓取它們。

對任何人都沒有價值的頁面

有些頁面對用戶或搜索引擎沒有價值。

其中一些是法律要求在您的網站上存在的,例如隱私政策,但是,說實話——沒有人在搜索此類內容。 當然,你不能刪除它們,但沒有必要對它們進行索引,因為沒有人想找到它們。 在某些情況下,它們的排名可能會超過更有價值的內容並“竊取”流量。

沒有價值的頁面還包含薄弱、低質量的內容。 您應該特別注意它們,因為它們會損害用戶和搜索引擎對您網站整體質量的看法。 有關詳細信息,請參閱低質量內容會損壞您的網站一章。

最重要的是,您需要確保沒有值的頁面具有 noindex 元機器人標籤。 如果您不阻止他們的索引,他們可能會損害您的排名並阻止用戶訪問您的網站。

此外,如果您想優化抓取預算,請在 robots.txt 文件中屏蔽這些頁面並刪除指向它們的內部鏈接。 這將幫助您為更有價值的頁面節省抓取預算。

包起來

了解您的哪些頁面應該和不應該被索引並將其傳達給搜索引擎機器人對於創建合理的索引策略至關重要。

它將最大限度地提高您的網站被正確抓取和索引的機會,並確保您的用戶可以在搜索結果中找到您所有有價值的內容。

以下是您在創建索引策略時需要牢記的關鍵要點:

  • 在決定是否應將頁面編入索引時,問問自己它是否具有對用戶有價值的獨特內容。 不應阻止唯一有價值的頁面被 noindex 元機器人標籤編入索引,或阻止使用 robots.txt 禁止指令進行抓取。
  • 如果您的低質量內容是可索引的,它可能會對您的排名產生負面影響,並使您有價值的頁面面臨未被索引的風險。
  • 如果您的網站上有重複或接近重複的內容,您應該將其與規範標籤或 301 重定向合併。
  • 如果頁面沒有搜索需求,則不必編制索引——使用元機器人標籤中的 noindex。
  • 包含僅對搜索引擎有價值的內容或鏈接的頁面應該使用 noindex 元機器人標籤阻止被索引,但不要阻止它們在 robots.txt 中被抓取。
  • 如果用戶和搜索引擎都不能從訪問給定頁面中受益,則應在元機器人標籤中將其設置為 noindex。
  • 如果同一頁面有多個替代語言版本,請保持它們可索引。 使用 hreflang 標籤幫助搜索引擎了解這些頁面之間的關係。