SEO 辦公時間,2022 年 6 月 3 日

已發表: 2022-07-04

這是2022 年 6 月 3 日Google SEO Office HoursJohn Mueller的最有趣問題和答案的摘要

內容隱藏
1我可以在一個頁面上使用兩個 HTTP 結果代碼嗎?
2如果我的網站在我的主要國家/地區已經很快,使用 CDN 會提高排名嗎?
3我應該禁止 API 請求以減少抓取嗎?
4我應該在內部鏈接上使用 rel=”nofollow” 嗎?
5有沒有辦法強製附加鏈接顯示?
6我們的網站使用 iframe 嵌入 PDF,我們應該 OCR 文本嗎?
7 Google 是否會抓取結構化數據標記中的 URL?

我可以在一個頁面上使用兩個 HTTP 結果代碼嗎?

1:22 “[…] 理論上,一個頁面上可能有兩個不同的 HTTP 結果代碼,但 Google 會如何處理這兩個代碼? 谷歌甚至會看到它們嗎? 如果是,谷歌會做什麼? 例如,一個 503 加上一個 302。”

John 的回答是:“[...] 使用 HTTP 結果代碼,您可以包含許多不同的內容。 Google 將查看第一個 HTTP 結果代碼並從本質上對其進行處理。

如果重定向到某個最終頁面,理論上你仍然可以有兩個或更多的 HTTP 結果代碼。 例如,您可以從一個頁面重定向到另一個頁面。 這是一個結果代碼。 然後在另一個頁面上,您可以提供不同的結果代碼。 所以這可能是一個 301 重定向到一個 404 頁面 […]。 從我們的角度來看,在那些我們可以按照重定向獲得最終結果的連鎖情況下,我們基本上只關注最終結果。

如果最終結果有內容,那麼我們可以將其用於規範化。 如果最終結果是一個錯誤頁面,那麼它就是一個錯誤頁面。 這對我們來說也很好。”

如果我的網站在我的主要國家/地區已經很快,使用 CDN 會提高排名嗎?

2:50 “[…] 我們的大部分流量來自特定國家。 我們將我們的網站託管在位於該國家/地區的服務器上。 您是否建議將我們的整個網站置於 CDN 之後,以提高全球用戶的頁面速度,還是我們不需要這樣做?”

約翰回答說:“我認為它對谷歌的搜索引擎優化完全沒有影響。

我可以想像的唯一可能發生的事情是用戶最終看到的。 [...] 如果您的大多數用戶已經看到一個非常快的網站,因為您的服務器位於那裡,那麼您 [...] 做的是正確的事情。 但是,當然,如果其他位置的用戶看到的結果非常緩慢,因為與您所在國家/地區的連接可能不是那麼好,那麼您可能有機會改進它。

[...] 如果您可以做一些事情來改善您網站的全球性,我認為這是一個好主意。 我認為這並不重要 […]。 但是,您可以做一些事情來 [...] 將您的網站擴展到您當前的國家/地區。

也許我應該澄清一件事,如果 Google 的抓取速度真的非常慢,那麼這當然會影響我們從網站上抓取和索引的程度 [...]。 對於任何不是數百萬頁大的網站[...],我還沒有真正認為這是一個問題。

您可以仔細檢查 Google 在 Search Console 中的抓取速度以及抓取統計信息。 如果這看起來合理,即使速度不是很快,我也不會真的擔心。”

我應該禁止 API 請求以減少抓取嗎?

5:20 “[...] 我們的網站目前將大約 20% 的抓取預算用於 API 子域,另外 20% 用於視頻的圖像縮略圖。 這些子域都沒有屬於我們的 SEO 策略的內容。 我們是否應該禁止這些子域抓取,或者如何發現或使用 API 端點?”

正如 John 所說,“[...] 在許多情況下, API 端點最終會被網站上的 JavaScript 使用,我們將呈現您的頁面。 如果他們訪問您網站上的 API,那麼我們將嘗試從該 API 加載內容並將其用於呈現頁面。

並且根據你的 API 的設置方式和 JavaScript 的設置方式,我們可能很難緩存這些 API 結果,這意味著我們可能會抓取大量這些 API 請求以嘗試獲取渲染版本您的頁面,以便我們可以將其用於索引。 所以這通常是發現它的地方。 這就是您可以通過確保 API 結果可以被緩存、當您將 JavaScript 用於 API [...] 時不會將任何時間戳注入 URL [...] 來提供幫助的事情。

如果您不關心這些 API 端點返回的內容,那麼您當然可以阻止整個子域被 robots.txt 文件抓取。 這基本上會阻止所有這些 API 請求的發生。

[...] 您首先需要弄清楚,這些 API 結果 [...] 是否是我希望從 Google 索引的 [...] 關鍵內容的一部分? 如果是這樣,那麼您可能不應該阻止爬行。 但是,如果 [...] 它是 [...] 生成的東西 [...] 對您的頁面 [...] 並不重要,那麼可能值得仔細檢查它們被阻止時的樣子。

您可以仔細檢查的一種方法是,您是否可以創建一個單獨的測試頁面,該頁面不調用 API 或使用損壞的 URL 作為 API 端點。 [...] 你可以看到這個頁面在我的瀏覽器中是如何實際呈現的? 它如何為 Google 呈現?”

我應該在內部鏈接上使用 rel=”nofollow” 嗎?

8:05 “在內部鏈接上使用 nofollow 屬性以避免不必要的爬蟲請求我們不希望被爬取或索引的 URL 是否合適?”

以下是約翰的回應:“[...] 我認為,在大多數情況下,在內部鏈接上使用 nofollow 幾乎沒有意義。 但如果這是你想做的事情,那就去做吧。

在大多數情況下,我會嘗試使用 rel=canonical來指向您確實想要編入索引的 URL,或者使用 robots.txt來處理您確實不想抓取的內容。

試著弄清楚,它是否更像是一個微妙的東西 [...] 你更喜歡索引然後使用 rel=canonical ? 或者是你所說的——實際上,當 Googlebot 訪問這些 URL 時,它會導致我的服務器出現問題。 它會導致很大的負載。 它讓一切變得非常緩慢。 它很貴,或者你有什麼。

對於這些情況,我只會禁止抓取這些 URL。 […] 顯然,對於 rel=canonical,我們首先必須爬取該頁面才能看到 rel=canonical。 但隨著時間的推移,我們將專注於您定義的規範。 我們將把它主要用於抓取和索引。”

有沒有辦法強製附加鏈接顯示?

16:02 “是否有任何策略可以將所需頁面作為站點鏈接顯示在 Google 搜索結果中?”

John 澄清說:“[...]沒有可用於強制顯示站點鏈接的元標記或結構化數據

[...] 我們的系統試圖找出在用戶查看此網頁時 [...] 與什麼相關或相關的內容 [...]? [...] 我們的建議本質上是要有一個良好的網站結構,有清晰的內部鏈接,以便我們很容易識別哪些頁面與這些頁面相關,並有明確的標題,我們可以使用和 [...] 顯示為一個網站鏈接。

[...] 並不是說所有這些都會像那樣顯示。 但這有助於我們找出相關的內容。 如果我們確實認為顯示站點鏈接是有意義的,那麼我們根據這些信息實際選擇一個鏈接會容易得多。”

我們的網站使用 iframe 嵌入 PDF,我們應該 OCR 文本嗎?

17:14 “我們的網站使用 iframe 和腳本將 PDF 文件嵌入到我們的頁面和網站中。 將 PDF 的 OCR 文本粘貼到文檔的 HTML 中以用於 SEO 是否有任何優勢,或者 Google 是否會簡單地解析具有相同權重和相關性的 PDF 內容以索引內容?”

John 回應說:“[...] 聽起來您想要獲取 PDF 的文本並 [...] 將其隱藏在 HTML 中以用於 SEO 目的。 我絕對不建議這樣做。 如果您希望內容可索引,則使其在頁面上可見。

[...]我們確實嘗試將文本從 PDF 中取出,並為 PDF 本身編制索引。 從實際的角度來看,PDF 發生的事情是第一步,我們將其轉換為 HTML 頁面,並嘗試像 HTML 頁面一樣對其進行索引。 […] 你正在做的是 […] iframe 一個間接的 HTML 頁面。 當涉及到 iframe 時,我們可以將這些內容考慮在內,以便在主頁中進行索引。 但也可能發生我們單獨索引 PDF 的情況。 [...] 我會把這個問題轉過來,把它描述成你想要發生的事情?

如果您希望您的普通網頁使用 PDF 文件的內容進行索引,那麼請使其內容在 HTML 頁面上立即可見。 因此,不要將 PDF 作為主要內容嵌入,而是將 HTML 內容作為主要內容並鏈接到 PDF 文件。

然後有一個問題,您是否希望這些 PDF 單獨編入索引? 有時您確實希望將 PDF 單獨編入索引。 而且,如果您確實希望將它們單獨編入索引,那麼鏈接到它們就很棒。

如果您不想將它們單獨編入索引,那麼使用 robots.txt 來阻止它們的索引也是可以的。 你也可以使用 noindex [? x-robots ?] HTTP 標頭。 它有點複雜,因為如果你想讓這些 PDF 文件在 iframe 中可用,但實際上沒有被索引,你必須將它作為 PDF 文件的標題。”

Google 會抓取結構化數據標記中的網址嗎?

23:24 “Google 是抓取結構化數據標記中的 URL,還是只存儲數據?”

John 解釋說:“在大多數情況下,當我們查看 HTML 頁面時,如果我們看到一些看起來像鏈接的東西,我們可能也會嘗試使用該 URL。 [...] 如果我們在 JavaScript 中找到一個 URL,我們可以嘗試選擇它並嘗試使用它。 如果我們在網站的文本文件中找到鏈接,我們可以嘗試抓取並使用它。 但這並不是一個真正的正常鏈接。

[...]如果您希望 Google 開始並抓取該 URL,請確保該 URL 有一個自然的 HTML 鏈接,並且帶有清晰的錨文本,您可以提供有關目標頁面的一些信息。

如果您不希望 Google 抓取該特定網址,則可以使用 robots.txt 或在該頁面上阻止它,使用 rel=canonical 指向您的首選版本,諸如此類。 [...] 我不會盲目地假設僅僅因為它在結構化數據中就不會被發現,我也不會盲目地假設僅僅因為它在結構化數據中就會被發現。

[...] 相反,我會專注於您希望在那裡發生的事情。 如果您想將其視為鏈接,則將其設為鏈接。 如果您不想對其進行爬網或編入索引,請阻止爬網或編入索引 [...]。”