Sitebulb 服務器 – 設置強大的 DIY 企業爬蟲的技術提示和技巧(在預算內)

已發表: 2022-09-26
電子郵件
Sitebulb 服務器

在執行 SEO 審核時,抓取非常重要。 對於 SEO 和網站所有者,從本地爬蟲到企業爬蟲(SAAS 服務)有多種選擇。 多年來,我一直在談論我最喜歡的爬行工具,它們是 Screaming Frog、Sitebulb、DeepCrawl 以及最近的 JetOctopus。 Screaming Frog 和 Sitebulb 是典型的本地爬蟲,而 DeepCrawl 和 JetOctopus 是優秀而強大的企業爬蟲。

當提到 Screaming Frog 和 Sitebulb 時,我說“通常是本地爬蟲”,因為有辦法將本地爬蟲入侵到 SAAS 爬蟲中。 例如,我啟動了幾台 AWS 服務器,在它們上面安裝了 Screaming Frog 和 Sitebulb,然後我就可以遠程爬行了。 核心好處是我可以釋放本地資源以專注於其他事情,而我的 AWS 服務器則以爬行方式完成繁重的工作。

這工作得很好,但有一個適合你自己動手的新解決方案。 它被稱為 Sitebulb Server,目前處於測試階段。 我已經使用它幾個月了,想在博客文章中介紹一些技巧和竅門。 我認為這是一個強大的解決方案,可以在預算內將您從本地帶到企業。

請注意,我不會在這篇文章中介紹您需要了解的所有內容。 相反,我想介紹它是如何工作的,一些技術提示和技巧,以及一些注意事項。 我敢肯定,Sitebulb 的團隊可以回答您的任何其他問題(多年來,他們對這個測試版非常有幫助)。 如果您遇到任何問題,您可以隨時在 Twitter 上聯繫我。 如果我能快速回答這些問題,我會的。

Sitebulb 服務器到底是什麼?
Sitebulb Server 是一種讓您在單獨的服務器上設置特殊版本的 Sitebulb 的方法,它可以在不佔用本地資源的情況下運行爬網。 使用標準版本的 Sitebulb,大多數用戶在他們的本地計算機上運行它。 這很好,但它肯定會使您的系統陷入困境並佔用帶寬。 使用 Sitebulb Server,這一切都發生在單獨的服務器上。 然後,您可以在桌面上使用特殊版本的 Sitebulb 連接到您的服務器。 當你這樣做時,你可以像在本地機器上運行審計一樣訪問審計。 能夠做到這一點真是太棒了。

我之前提到過,您始終可以設置一個單獨的遠程服務器並運行 Sitebulb(或 Screaming Frog)。 我已經這樣做了多年並且效果很好(儘管您不能同時運行多個爬網)。 好吧,Sitebulb Server 是一個遠程爬蟲服務器,但在類固醇上。 它旨在同時運行多個爬網,同時使您能夠從自己的桌面應用程序連接到任何這些爬網。 此外,多個團隊成員可以從 Sitebulb Server 訪問這些爬網。 因此,如果您有一個 SEO 團隊進行審計,那麼 Sitebulb Server 可以成為一個強大的 DIY 解決方案,用於訪問這些團隊成員的爬網數據。

在遠程服務器上同時抓取站點的能力令人驚嘆:

使用 Sitebulb Server 抓取多個站點

您可以從任何地方訪問您的服務器,以便像在本地計算機上一樣審核爬網數據:

通過 Sitebulb Server 從任何地方訪問爬網數據

最大的障礙 IMO – 可怕、令人困惑、神秘但通常很簡單的服務器設置。
這一切聽起來都很棒,對吧? 但是,您需要跳過的最大障礙或障礙是什麼? 毫無疑問,這是服務器設置。 我在第一次設置 AWS 實例以運行他們自己的 Screaming Frog 和 Sitebulb 版本時遇到了這個問題。 這是許多 SEO 和網站所有者不熟悉的神秘過程。 這不一定很難,但在我看來絕對是一個障礙。 我發現許多 SEO 沒有設置單獨的服務器進行爬網,而且我知道有一個數字在嘗試設置它們時遇到了障礙。

好吧,Sitebulb 來救援。 Sitebulb 的 Patrick 和 Gareth 為設置 Sitebulb 服務器、如何設置遠程服務器(包括 AWS 和谷歌云計算)等創建了出色的文檔。 您可以在他們的幫助文檔中閱讀更多內容,其中還包括視頻剪輯(當您嘗試設置遠程服務器時,這非常棒)。 有時一張照片勝過一千個字。

例如,這裡是一個視頻剪輯 Sitebulb,用於通過 AWS 設置 Sitebulb 服務器:

請注意,我個人使用 AWS,效果很好,但您可以使用任何您想要的設置。 您可以使用專用服務器、AWS、谷歌云計算、本地網絡上的備用計算機等。一旦您設置了服務器,通常不會花費很長時間,那麼您可以繼續設置 Sitebulb 服務器和連接到您的服務器的特殊桌面版 Sitebulb。

磁盤空間和 vCPU:關於您的服務器的一些要點。
設置服務器時,確保有足夠的磁盤空間和足夠的 vCPU(或虛擬 CPU)很重要。 它們會影響您可以存儲多少爬網數據以及在爬網時可以使用多少線程。

首先,爬行佔用大量空間。 企業爬網佔用了大量空間。 確保根據您通常運行的爬網類型選擇足夠的磁盤空間。 下面是來自 AWS 的用於配置存儲的屏幕截圖。

在 AWS 上設置 Sitebulb 服務器時配置磁盤存儲

接下來是 vCPU(或虛擬 CPU)。 重要的是要了解每個 vCPU 都是一個線程。 因此,如果您的爬網將佔用 5 個線程,那麼您將需要 5 個 vCPU。 此外,當你連接到服務器時,你也在佔用一個線程。 如果您想同時運行多個爬網,您還需要考慮到這一點(甚至更多線程)。 在下面,您可以看到 AWS 實例有 8 個 vCPU(或 Sitebulb Server 的 8 個線程)。

在 AWS 上設置 Sitebulb 服務器時選擇 vCPU 的數量

例如,如果您使用 5 個線程運行兩次爬網,並且您正在連接到服務器,那麼您將需要 11 個線程 (5 + 5 + 1)。 我對此有一些疑問,Patrick 很高興能回复我更多信息。 Sitebulb 的團隊擁有豐富的知識,他們在幫助客戶方面表現出色。 所以,首先檢查他們的文檔。 如果您仍然沒有答案,我相信他們可以幫助您找出最佳解決方案。

關於同時運行爬網與排隊的注意事項。
另一個混淆點是關於運行並發爬網。 換句話說,這就是您將同時運行多個爬網的方式。 這通常只為企業爬蟲保留,但您現在可以通過 Sitebulb Server 執行此操作。

首先,在設置服務器時,請確保選中運行並發爬網的選項。 那在服務器設置部分。

檢查 Sitebulb Server 中的並發審核

接下來,確保您對“並發隊列類型”進行了正確的設置。 這應該設置為“基於可用線程的下一步”而不是“先進先出”。 如果您將其設置為“先進先出”,則每次爬網將單獨運行(並按順序)。 通過使用“並發隊列類型”,只要有足夠的線程,爬網就可以同時運行(參見我之前的評論)。

在 Sitebulb Server 中設置並發隊列類型

而對於“保留線程”,您設置的數量是基於同時訪問服務器的團隊成員的數量。 如果你是一個單獨的顧問,那麼你可以設置一個。 如果您有兩個其他隊友將同時訪問服務器,那麼您應該將其設置為三個(您和兩個隊友)。

在 Sitebulb Server 中設置保留線程

停止和重新啟動 AWS 時 IP 地址更改
另一個令人困惑的話題與 IP 地址和您的 AWS 實例有關。 由於您在服務器使用時付費,因此您通常希望在該實例不使用時停止該實例。 如果沒有,您的成本可能會開始飆升。 但這就是問題所在。 當您停止並重新啟動 AWS 實例時,服務器會獲得一個新的 IP 地址。 該 IP 地址是您在將 Sitebulb 桌面應用程序連接到 Sitebulb 服務器時使用的地址。 它也是您通過遠程桌面連接到該服務器時使用的(用於遠程管理服務器)。

因此,您需要快速進入 Sitebulb 桌面上的設置並更改服務器的 IP 地址。 這不會花很長時間,也不難做到,但如果你不知道你必須這樣做,它可能會引起混亂。 除非使用正確的 IP 地址,否則您基本上無法連接到 Sitebulb 服務器。

停止並重新啟動 AWS 服務器後更改 IP 地址

還要記住,通過遠程桌面連接時,您需要更改該 IP 地址。 否則,您的連接將失敗。 您使用遠程桌面遠程管理您的服務器(如安裝軟件)。

通過遠程桌面添加新 IP 地址

從一個桌面 Sitebulb 設置連接到多個 Sitebulb 服務器。
Sitebulb Server 的另一個很酷的功能是您可以從一個桌面設置連接到多個服務器。 因此,如果您需要多個 Sitebulb 服務器,因為您需要同時運行許多爬網,您可以這樣做。 只需啟動多個 AWS 服務器或專用服務器,在它們上設置 Sitebulb 服務器,然後從您的桌面應用程序連接到這些服務器。 Sitebulb Server 在這方面具有極強的可擴展性。

在 Sitebulb Server 中添加多個服務器
在 Sitebulb Server 中註冊新服務器

重要提示:在您的服務器上打開一個網絡端口。
好的,我在設置 Sitebulb Server 時遇到了這個問題,所以我相信其他人也會。 Sitebulb 在他們的文檔中也有這個,所以希望您在設置自己的服務器時不會錯過它。 但是,我還是想在這裡介紹它,因為它很重要。

可能需要在服務器防火牆上打開一個網絡端口才能正確運行 Sitebulb Server。 網絡端口通常默認關閉,因此您需要創建防火牆策略以打開服務器上的端口 10401。 一旦您知道去哪里以及如何做,就很容易做到,但我認為很多人可能會錯過設置它。 Sitebulb 的視頻教程詳細介紹了這一步,所以我不會在這裡重新創建輪子。 但同樣,重要的是要做。

通過 AWS 設置 Sitebulb 服務器時打開網絡端口

Sitebulb Server – 運行企業爬網的強大選項,不會讓您的本地設置陷入困境。
同樣,我不想在這篇文章中嘗試涵蓋有關 Sitebulb Server 的所有內容。 相反,我想介紹一些 SEO 和網站所有者在設置和運行 Sitebulb Server(基於過去幾個月使用 Sitebulb Server)時可能遇到的一些技術提示和技巧。 就個人而言,我發現 Sitebulb Server 是在預算內運行企業爬網的強大解決方案。 我想你也會的。 我建議與 Sitebulb 的 Patrick 和 Gareth 聯繫,以了解有關試用 Sitebulb Server 的可用選項的更多信息。

GG