如何對抗網站內容抓取工具

已發表: 2022-02-21

任何花時間確保內容獨特、寫得好且有用的網站管理員在發現他們的內容被抓取並顯示在另一個網站上時都會感到痛苦。 抓取工具只是在網絡上開展業務的一部分,網站管理員無法阻止它。 但是,您可以採取一些巧妙的措施來對抗它並保持您的網站在搜索引擎中的獨特價值。




開始免費參加我們的聯盟營銷人員培訓!



挑戰

有幾種方法可以阻止爬蟲,但其中一些也可以阻止合法的搜索引擎爬蟲。 網站管理員面臨的挑戰是讓網站對爬蟲不友好,但仍然對搜索引擎友好。 這不是一件容易的事,因為阻止爬蟲的東西通常也會阻止搜索引擎。

例如,完全阻止爬蟲的一種方法是將您的內容轉換為圖像。 雖然這非常適合對抗爬蟲,但它會使您的網站完全不適合 SEO。 搜索引擎將無法解析和閱讀您的內容,因此您的排名可能會下降。 搜索引擎仍然是基於文本的,因此它們無法正確理解和閱讀圖像。

由於刮板和機器人的工作方式相似,因此很難創建一種方法來阻止刮板而不損害您的 SEO 和排名。 選擇方法時,請明智地選擇。 如果它影響搜索引擎機器人,即使測試一種方法也會產生負面影響。 除非您知道它們不會阻止合法機器人,否則不要執行任何大規模的結構更改。

您可以通過以下三種方式來對抗內容抓取工具,同時保持您的網站搜索引擎爬蟲友好。



單擊此處獲取在線成功所需的一切


在您的頁面中設置規範

在索引重複內容時,規範為 Google 算法提供了強有力的建議。 規範基本上是說“這是重複的內容。 而是將此 URL 編入索引。” “此 URL”是您網站上的一個頁面。

當抓取工具竊取您的內容時,它會獲取 HTML 標記中的所有內容,包括鏈接標記。 結果是您的規範設置在刮板的頁面上。 當 Google 抓取爬蟲網站時,它會讀取規範並取消索引爬蟲的頁面並保留您自己的頁面。 擁有指向當前頁面的規範鏈接不會影響您的 Google 索引狀態,因此您無需擔心它會導致本地頁面出現問題。

這種技術通常效果很好,但也有一些問題。 首先,當刮板的所有者發現包含規範時,他可以刪除規範。 其次,規範是對谷歌的建議。 雖然搜索引擎算法通常接受規範並將其用於索引,但這並不是保證。 如果 Google 看到指向刮板頁面的強烈信號,它可能會將它們編入索引。 然而,這種情況很少見。 強信號包括鏈接、高流量和頁面的受歡迎程度。

以下是規範的鏈接代碼。

<link rel="canonical" "https://yoursite.com/yourpage.html" />

請注意,您需要絕對 URL,這意味著您包括協議 (HTTP)、域名 (yoursite.com) 和頁面名稱。 在您的每個內容頁面上都包含此代碼。

在鏈接中使用絕對 URL

有兩種類型的鏈接 URL:絕對和相對。 絕對值看起來像上一節中的鏈接。 它包括協議、域和頁面名稱。

相對鏈接僅使用目錄和頁面名稱。 這是一個例子:

    絕對網址

<link rel="canonical" "https://yoursite.com/yourpage.html" />

    相對網址

<link rel="canonical" "/yourpage.html" />

當刮板竊取您的內容時,它會刮掉所有內容和網站結構。 當您使用相對 URL 時,爬蟲站點的鏈接將起作用。 當您使用絕對 URL 時,這些鏈接指向您自己的域。 刮板必須從所有鏈接中刪除您的域,否則它們都指向您的站點,這實際上對您的鏈接圖有益。 除非爬蟲所有者可以編寫代碼,否則除非他編輯腳本,否則他將無法使用您的內容。



單擊此處獲取在線成功所需的一切


創建蜜罐

蜜罐是公司用來吸引黑客的誘餌。 它們模仿真實的服務器或系統,並允許黑客發現漏洞。 蜜罐的優勢是在黑客侵入系統時記錄事件。 他們還引誘黑客遠離關鍵系統。

您可以在您的 Web 服務器上創建一個類似的系統。 只需創建一個文件。 創建一個空白 HTML 文件並將其上傳到您的 Web 服務器。 例如,將文件命名為“honey.html”並將其放在您的 Web 服務器上。 將該文件添加到您的 robots.txt 以阻止機器人抓取它。 抓取工具尊重 robots.txt 指令,因此如果您在 robots.txt 文件中阻止了該頁面,它們將不會抓取該頁面。

接下來,在您網站的一個活動頁面上放置一個指向 honey.html 頁面的隱藏鏈接。 您可以使用“display: none” CSS div 隱藏鏈接。 以下代碼是一個示例:

<div style=”display: none;”><a href=”honey.html”>鏈接名稱</a></div>

以上代碼對爬蟲和爬蟲可見,但對普通訪問者不可見。

這個技巧的作用是將流量指向一個文件。 由於合法塊尊重 robots.txt 但抓取不會,因此您可以看到 IP 正在抓取該頁面。 您應該在您的網站上記錄流量,因此請手動查看抓取 honey.html 的 IP 地址。 Google 和 Bing 等合法的機器人不會抓取頁面,但抓取工具會。 查找爬蟲 IP 並在您的 Web 服務器或防火牆上阻止它們。 您仍然應該在阻止它之前驗證 IP,以防萬一發生任何問題並且合法流量找到該頁面。

刮板永遠不應該超過您的網站

您不能完全阻止網站獲取您的內容。 畢竟,不道德的網站所有者可以手動複製您的網站內容。 但是,刮板網站的排名永遠不應該超過您的網站。 爬蟲排名超過您自己網站的最可能原因是您自己的搜索引擎優化問題。

谷歌有數百個對網站進行排名的因素,因此很難知道哪個因素會影響您的網站。 以下是您可以查看的內容的細分。

  • 您的內容是獨特的、有用的並且是為用戶編寫的嗎?
  • 您或顧問是否執行過任何鏈接構建?
  • 你的內容權威嗎?
  • 低質量頁面是否設置為 noindex?
  • 您的導航是否便於用戶查找內容和產品?

這些是您可以查看的一些問題,但您可能需要專業人員來更徹底地審核該站點。

好消息是,由於 Google 的處罰和對爬蟲網站主機的投訴,爬蟲通常會很快消失。 如果您看到前面的爬蟲排名,請採取這些步驟來阻止它們,並花時間檢查您的網站的質量。