2019年如何打造機器學習/深度學習工作站 – PromptCloud

已發表: 2019-03-08
目錄顯示
野獸應該持有什麼
選擇硬件時的決定
的優點和缺點
好的
壞的
硬件組裝
軟件安裝
ML/DL 的雲服務
結論

在一個被機器學習和深度學習算法接管的世界裡,你確實需要更快的機器來處理海量數據。 雖然大多數“軟件工程師”不使用筆記本電腦,但如果您想構建自己的內部 AI 功能,則必須擁有一個專用工作站。
由服務提供商為您構建最終可能比自己組裝成本高得多,這就是為什麼我們決定在 2019 年深入研究構建 ML/DL 工作站的工作方式。

野獸應該持有什麼

我們稱我們的工作站為“野獸”,因為它具有強大的計算能力。 這是配置。

GPU - 4 X NVIDIA Tesla V100 Volta GPU 加速器 32GB 顯卡
RAM- 4 X Supermicro – 128 GB 註冊 DDR4-2666 內存
處理器- Intel Xeon E5-2698 v4 2.2 GHz,具有 turbo-boost 3.60 GHz(20 核和 50 Mb 智能緩存)
GPU 冷卻單元- ARCTIC Accelero Xtreme+ II VGA Cooler
電源 - CORSAIR AX1600i,1600 瓦,80+ 鈦認證,完全模塊化 - 數字電源
主板- Supermicro – X10SRA ATX LGA2011-3 主板
CPU 散熱器 - ASUS ROG Ryujin 360 RGB AIO Liquid CPU Cooler 360mm 散熱器(三個 120mm 4-pin Noctua iPPC PWM 風扇)
機櫃-曜越Level 20 ATX全塔式機箱
內存 - Intel SSD DC P4510系列(4.0TB,2.5in PCIe 3.1 x4,3D2,TLC)

選擇硬件時的決定

在選擇該系統的硬件配置時考慮了幾件事。 我們將一一討論。

GPU讓我們談談系統中最重要的單元以及我們選擇它的原因。 NVIDIA Tesla V100 是 NVIDIA 打造的最新、最先進的數據中心 GPU。 它的 32GB 存儲棒幫助數據科學家和 ML 工程師在每次迭代模型更改上花費的時間更少,從而可以將更多時間集中在更改模型和再次運行上,從而在 AI 方面取得更好的突破。 如果你對規格表很著迷,讓我告訴你,這個帶有 640 個張量核心,可提供高達 125 teraflops 的深度學習性能。 還需要注意的是,我們在 SLI 中推薦的 4 個 V100 的 GPU 配置也被 NVIDIA 自己的稱為 DGX STATION 的自定義工作站使用。

CPU我們為我們的系統選擇了基於單 CPU 的模型,因為我們的計算將主要在 GPU 本身上運行,並且具有 40 個線程的 20 核 Intel Xeon 處理器足以滿足任何可能需要 CPU 密集型計算的計算。 雙 CPU 模型不會提高性能,而只會處理同時需要更多內核的任務。 如果您確實需要雙 CPU 設置,建議您製作兩個工作站。 工作負載並不總是像雙 CPU 所期望的那樣擴展,最好使用具有更高內核的單個 CPU。

RAM由於許多基於 ML/DL 的任務都在圖像或視頻上,因此擁有足夠的內存來加載如此龐大的數據集非常重要。 這就是我們選擇最高配置 128GB X 4 的原因。根據您的需求和您要處理的數據集類型,您也可以選擇 128GB 或 256GB 配置。 您也可以將一些內存插槽留空,因為 RAM 升級既簡單又划算。

電源雖然我推薦 Corsair Ax1600i,但您實際上可以使用任何能產生至少 1500W 功率的電源裝置,因為這台野獸般的工作站耗電大,峰值需要 1500W。

主板主板是在牢記它的支持後決定的 -
a) 英特爾至強處理器。
b) 大量 DDR4 RAM。
c) SLI 中的 Tesla V100 CPU。

內存 - 硬盤時代已經一去不復返了,SSD 是新的內存形式。 因此,我們決定使用具有 4Gb 存儲空間的最佳英特爾 SSD。 我們的單元支持輕鬆擴展,因此您可以根據需要添加更多內存模塊。

冷卻裝置和機櫃 -雖然看似不重要,但運行 1500W 機器有其自身的問題,必須為 GPU 和 CPU 分別安裝冷卻裝置,以便它們始終處於最佳溫度。 如果您看到溫度升高,您可以獲得更好的冷卻裝置。 之所以選擇這個機箱,是因為它足夠大,可以容納這麼多組件,而且只要它足夠大,可以容納組件和 4GPU SLI 套件,您就可以使用更高級的機箱。

的優點和缺點

同一枚硬幣總是有兩個方面,構建自己的工作站來處理 AI 項目也有其自身的起伏。

好的

如果您單獨購買零件並自行組裝,則成本會相對較低。 由服務提供商購買定制工作站的成本是自己組裝工作站的 2 到 3 倍。
使用定制的產品時,您將不得不屈服於一些軟件和硬件的限制,而當您自己組裝一個時,您可以完全自由地按照自己的意願構建它。
當談到工作站時,總是有升級的機會。 如果您為自己建造了一個,那麼每次您需要更改或修改時,您都將付出高昂的代價。

壞的

萬一突然出現問題,您必鬚根據保修詳細信息找出哪個部件有故障並進行維修或更換。 建議您始終對異地存儲的數據進行備份,以防發生任何部件故障或事故。
擁有一個內部高成本的 AI 工作站意味著定期維護,而這是您必須自己承擔的事情。
所有軟件和硬件更新都必須由您的團隊完成,否則您需要在需要時聘請專業人員。

硬件組裝

除非您有過去的經驗,否則最好聘請某人來完成這項任務,因為將所有東西放在一起需要額外的電纜、導熱膏和一些技巧,以確保一切正常並有適當的散熱.

軟件安裝

如果您要訓練 ML 或 DL 模型,強烈建議您安裝 Ubuntu 而不是 Windows。 根據您正在從事的項目類型,您還需要安裝 Python、R 和不同的模塊,例如 Tensorflow 和 Scikit,以幫助您完成日常工作。

ML/DL 的雲服務

在處理 ML/DL 模型時,您肯定需要大量數據來訓練模型或決定使用哪種算法。 JobsPikr、DataStock 和 Google 數據集搜索是一些很棒的基於雲的服務,它們可能會派上用場。 如果你想在網絡數據上訓練你的模型,你甚至可以選擇像 PromptCloud 這樣的 DaaS 提供商。

結論

作為最後的聲明,我想說成本抵消遠遠超過了劣勢,除非您是一家需要多個具有維護協議的 AI 工作站的大公司,否則您應該構建自己的 AI 工作站。 構建自己的工作站並對其進行維護,不僅可以為您節省大量可用於業務其他地方的資金,還可以讓您更接近所使用的硬件,以便您更多地了解 ML 或 DL 算法如何使用 GPU跑得更快,獲得全面的了解。