SEO 辦公時間，2022 年 6 月 3 日

已發表: 2022-07-04

這是2022 年 6 月 3 日Google SEO Office Hours與John Mueller的最有趣問題和答案的摘要。

內容隱藏

1我可以在一個頁面上使用兩個 HTTP 結果代碼嗎？

2如果我的網站在我的主要國家/地區已經很快，使用 CDN 會提高排名嗎？

3我應該禁止 API 請求以減少抓取嗎？

4我應該在內部鏈接上使用 rel=”nofollow” 嗎？

5有沒有辦法強製附加鏈接顯示？

6我們的網站使用 iframe 嵌入 PDF，我們應該 OCR 文本嗎？

7 Google 是否會抓取結構化數據標記中的 URL？

我可以在一個頁面上使用兩個 HTTP 結果代碼嗎？

1:22 “[…] 理論上，一個頁面上可能有兩個不同的 HTTP 結果代碼，但 Google 會如何處理這兩個代碼？谷歌甚至會看到它們嗎？如果是，谷歌會做什麼？例如，一個 503 加上一個 302。”

John 的回答是：“[...] 使用 HTTP 結果代碼，您可以包含許多不同的內容。 Google 將查看第一個 HTTP 結果代碼並從本質上對其進行處理。

如果重定向到某個最終頁面，理論上你仍然可以有兩個或更多的 HTTP 結果代碼。 例如，您可以從一個頁面重定向到另一個頁面。這是一個結果代碼。然後在另一個頁面上，您可以提供不同的結果代碼。所以這可能是一個 301 重定向到一個 404 頁面 […]。從我們的角度來看，在那些我們可以按照重定向獲得最終結果的連鎖情況下，我們基本上只關注最終結果。

如果最終結果有內容，那麼我們可以將其用於規範化。如果最終結果是一個錯誤頁面，那麼它就是一個錯誤頁面。這對我們來說也很好。”

如果我的網站在我的主要國家/地區已經很快，使用 CDN 會提高排名嗎？

2:50 “[…] 我們的大部分流量來自特定國家。我們將我們的網站託管在位於該國家/地區的服務器上。您是否建議將我們的整個網站置於 CDN 之後，以提高全球用戶的頁面速度，還是我們不需要這樣做？”

約翰回答說：“我認為它對谷歌的搜索引擎優化完全沒有影響。

我可以想像的唯一可能發生的事情是用戶最終看到的。 [...] 如果您的大多數用戶已經看到一個非常快的網站，因為您的服務器位於那裡，那麼您 [...] 做的是正確的事情。但是，當然，如果其他位置的用戶看到的結果非常緩慢，因為與您所在國家/地區的連接可能不是那麼好，那麼您可能有機會改進它。

[...] 如果您可以做一些事情來改善您網站的全球性，我認為這是一個好主意。我認為這並不重要 […]。但是，您可以做一些事情來 [...] 將您的網站擴展到您當前的國家/地區。

也許我應該澄清一件事，如果 Google 的抓取速度真的非常慢，那麼這當然會影響我們從網站上抓取和索引的程度 [...]。對於任何不是數百萬頁大的網站[...]，我還沒有真正認為這是一個問題。

您可以仔細檢查 Google 在 Search Console 中的抓取速度以及抓取統計信息。如果這看起來合理，即使速度不是很快，我也不會真的擔心。”

我應該禁止 API 請求以減少抓取嗎？

5:20 “[...] 我們的網站目前將大約 20% 的抓取預算用於 API 子域，另外 20% 用於視頻的圖像縮略圖。這些子域都沒有屬於我們的 SEO 策略的內容。我們是否應該禁止這些子域抓取，或者如何發現或使用 API 端點？”

正如 John 所說，“[...] 在許多情況下， API 端點最終會被網站上的 JavaScript 使用，我們將呈現您的頁面。 如果他們訪問您網站上的 API，那麼我們將嘗試從該 API 加載內容並將其用於呈現頁面。

並且根據你的 API 的設置方式和 JavaScript 的設置方式，我們可能很難緩存這些 API 結果，這意味著我們可能會抓取大量這些 API 請求以嘗試獲取渲染版本您的頁面，以便我們可以將其用於索引。所以這通常是發現它的地方。這就是您可以通過確保 API 結果可以被緩存、當您將 JavaScript 用於 API [...] 時不會將任何時間戳注入 URL [...] 來提供幫助的事情。

如果您不關心這些 API 端點返回的內容，那麼您當然可以阻止整個子域被 robots.txt 文件抓取。這基本上會阻止所有這些 API 請求的發生。

[...] 您首先需要弄清楚，這些 API 結果 [...] 是否是我希望從 Google 索引的 [...] 關鍵內容的一部分？如果是這樣，那麼您可能不應該阻止爬行。但是，如果 [...] 它是 [...] 生成的東西 [...] 對您的頁面 [...] 並不重要，那麼可能值得仔細檢查它們被阻止時的樣子。

您可以仔細檢查的一種方法是，您是否可以創建一個單獨的測試頁面，該頁面不調用 API 或使用損壞的 URL 作為 API 端點。 [...] 你可以看到這個頁面在我的瀏覽器中是如何實際呈現的？它如何為 Google 呈現？”

我應該在內部鏈接上使用 rel=”nofollow” 嗎？

8:05 “在內部鏈接上使用 nofollow 屬性以避免不必要的爬蟲請求我們不希望被爬取或索引的 URL 是否合適？”

以下是約翰的回應：“[...] 我認為，在大多數情況下，在內部鏈接上使用 nofollow 幾乎沒有意義。 但如果這是你想做的事情，那就去做吧。

在大多數情況下，我會嘗試使用 rel=canonical來指向您確實想要編入索引的 URL，或者使用 robots.txt來處理您確實不想抓取的內容。

試著弄清楚，它是否更像是一個微妙的東西 [...] 你更喜歡索引然後使用 rel=canonical ？或者是你所說的——實際上，當 Googlebot 訪問這些 URL 時，它會導致我的服務器出現問題。它會導致很大的負載。它讓一切變得非常緩慢。它很貴，或者你有什麼。

對於這些情況，我只會禁止抓取這些 URL。 […] 顯然，對於 rel=canonical，我們首先必須爬取該頁面才能看到 rel=canonical。但隨著時間的推移，我們將專注於您定義的規範。我們將把它主要用於抓取和索引。”

有沒有辦法強製附加鏈接顯示？

16:02 “是否有任何策略可以將所需頁面作為站點鏈接顯示在 Google 搜索結果中？”

John 澄清說：“[...]沒有可用於強制顯示站點鏈接的元標記或結構化數據。

[...] 我們的系統試圖找出在用戶查看此網頁時 [...] 與什麼相關或相關的內容 [...]？ [...] 我們的建議本質上是要有一個良好的網站結構，有清晰的內部鏈接，以便我們很容易識別哪些頁面與這些頁面相關，並有明確的標題，我們可以使用和 [...] 顯示為一個網站鏈接。

[...] 並不是說所有這些都會像那樣顯示。但這有助於我們找出相關的內容。如果我們確實認為顯示站點鏈接是有意義的，那麼我們根據這些信息實際選擇一個鏈接會容易得多。”

我們的網站使用 iframe 嵌入 PDF，我們應該 OCR 文本嗎？

17:14 “我們的網站使用 iframe 和腳本將 PDF 文件嵌入到我們的頁面和網站中。將 PDF 的 OCR 文本粘貼到文檔的 HTML 中以用於 SEO 是否有任何優勢，或者 Google 是否會簡單地解析具有相同權重和相關性的 PDF 內容以索引內容？”

John 回應說：“[...] 聽起來您想要獲取 PDF 的文本並 [...] 將其隱藏在 HTML 中以用於 SEO 目的。我絕對不建議這樣做。如果您希望內容可索引，則使其在頁面上可見。

[...]我們確實嘗試將文本從 PDF 中取出，並為 PDF 本身編制索引。 從實際的角度來看，PDF 發生的事情是第一步，我們將其轉換為 HTML 頁面，並嘗試像 HTML 頁面一樣對其進行索引。 […] 你正在做的是 […] iframe 一個間接的 HTML 頁面。當涉及到 iframe 時，我們可以將這些內容考慮在內，以便在主頁中進行索引。但也可能發生我們單獨索引 PDF 的情況。 [...] 我會把這個問題轉過來，把它描述成你想要發生的事情？

如果您希望您的普通網頁使用 PDF 文件的內容進行索引，那麼請使其內容在 HTML 頁面上立即可見。因此，不要將 PDF 作為主要內容嵌入，而是將 HTML 內容作為主要內容並鏈接到 PDF 文件。

然後有一個問題，您是否希望這些 PDF 單獨編入索引？有時您確實希望將 PDF 單獨編入索引。而且，如果您確實希望將它們單獨編入索引，那麼鏈接到它們就很棒。

如果您不想將它們單獨編入索引，那麼使用 robots.txt 來阻止它們的索引也是可以的。你也可以使用 noindex [? x-robots ?] HTTP 標頭。它有點複雜，因為如果你想讓這些 PDF 文件在 iframe 中可用，但實際上沒有被索引，你必須將它作為 PDF 文件的標題。”

Google 會抓取結構化數據標記中的網址嗎？

23:24 “Google 是抓取結構化數據標記中的 URL，還是只存儲數據？”

John 解釋說：“在大多數情況下，當我們查看 HTML 頁面時，如果我們看到一些看起來像鏈接的東西，我們可能也會嘗試使用該 URL。 [...] 如果我們在 JavaScript 中找到一個 URL，我們可以嘗試選擇它並嘗試使用它。如果我們在網站的文本文件中找到鏈接，我們可以嘗試抓取並使用它。但這並不是一個真正的正常鏈接。

[...]如果您希望 Google 開始並抓取該 URL，請確保該 URL 有一個自然的 HTML 鏈接，並且帶有清晰的錨文本，您可以提供有關目標頁面的一些信息。

如果您不希望 Google 抓取該特定網址，則可以使用 robots.txt 或在該頁面上阻止它，使用 rel=canonical 指向您的首選版本，諸如此類。 [...] 我不會盲目地假設僅僅因為它在結構化數據中就不會被發現，我也不會盲目地假設僅僅因為它在結構化數據中就會被發現。

[...] 相反，我會專注於您希望在那裡發生的事情。如果您想將其視為鏈接，則將其設為鏈接。如果您不想對其進行爬網或編入索引，請阻止爬網或編入索引 [...]。”