2019年如何打造机器学习/深度学习工作站 – PromptCloud

已发表: 2019-03-08
目录显示
野兽应该持有什么
选择硬件时的决定
的优点和缺点
好的
坏的
硬件组装
软件安装
ML/DL 的云服务
结论

在一个被机器学习和深度学习算法接管的世界里,你确实需要更快的机器来处理海量数据。 虽然大多数“软件工程师”不使用笔记本电脑,但如果您想构建自己的内部 AI 功能,则必须拥有一个专用工作站。
由服务提供商为您构建最终可能比自己组装成本高得多,这就是为什么我们决定在 2019 年深入研究构建 ML/DL 工作站的工作方式。

野兽应该持有什么

我们称我们的工作站为“野兽”,因为它具有强大的计算能力。 这是配置。

GPU - 4 X NVIDIA Tesla V100 Volta GPU 加速器 32GB 显卡
RAM- 4 X Supermicro – 128 GB 注册 DDR4-2666 内存
处理器- Intel Xeon E5-2698 v4 2.2 GHz,具有 turbo-boost 3.60 GHz(20 核和 50 Mb 智能缓存)
GPU 冷却单元- ARCTIC Accelero Xtreme+ II VGA Cooler
电源 - CORSAIR AX1600i,1600 瓦,80+ 钛认证,完全模块化 - 数字电源
主板- Supermicro – X10SRA ATX LGA2011-3 主板
CPU 散热器 - ASUS ROG Ryujin 360 RGB AIO Liquid CPU Cooler 360mm 散热器(三个 120mm 4-pin Noctua iPPC PWM 风扇)
机柜-曜越Level 20 ATX全塔式机箱
内存 - Intel SSD DC P4510系列(4.0TB,2.5in PCIe 3.1 x4,3D2,TLC)

选择硬件时的决定

在选择该系统的硬件配置时考虑了几件事。 我们将一一讨论。

GPU让我们谈谈系统中最重要的单元以及我们选择它的原因。 NVIDIA Tesla V100 是 NVIDIA 打造的最新、最先进的数据中心 GPU。 它的 32GB 存储棒帮助数据科学家和 ML 工程师在每次迭代模型更改上花费的时间更少,从而可以将更多时间集中在更改模型和再次运行上,从而在 AI 方面取得更好的突破。 如果你对规格表很着迷,让我告诉你,这个带有 640 个张量核心,可提供高达 125 teraflops 的深度学习性能。 还需要注意的是,我们在 SLI 中推荐的 4 个 V100 的 GPU 配置也被 NVIDIA 自己的称为 DGX STATION 的自定义工作站使用。

CPU我们为我们的系统选择了基于单 CPU 的模型,因为我们的计算将主要在 GPU 本身上运行,并且具有 40 个线程的 20 核 Intel Xeon 处理器足以满足任何可能需要 CPU 密集型计算的计算。 双 CPU 模型不会提高性能,而只会处理同时需要更多内核的任务。 如果您确实需要双 CPU 设置,建议您制作两个工作站。 工作负载并不总是像双 CPU 所期望的那样扩展,最好使用具有更高内核的单个 CPU。

RAM由于许多基于 ML/DL 的任务都在图像或视频上,因此拥有足够的内存来加载如此庞大的数据集非常重要。 这就是我们选择最高配置 128GB X 4 的原因。根据您的需求和您要处理的数据集类型,您也可以选择 128GB 或 256GB 配置。 您也可以将一些内存插槽留空,因为 RAM 升级既简单又划算。

电源虽然我推荐 Corsair Ax1600i,但您实际上可以使用任何能产生至少 1500W 功率的电源装置,因为这台野兽般的工作站耗电大,峰值需要 1500W。

主板主板是在牢记它的支持后决定的 -
a) 英特尔至强处理器。
b) 大量 DDR4 RAM。
c) SLI 中的 Tesla V100 CPU。

内存 - 硬盘时代已经一去不复返了,SSD 是新的内存形式。 因此,我们决定使用具有 4Gb 存储空间的最佳英特尔 SSD。 我们的单元支持轻松扩展,因此您可以根据需要添加更多内存模块。

冷却装置和机柜 -虽然看似不重要,但运行 1500W 机器有其自身的问题,必须为 GPU 和 CPU 分别安装冷却装置,以便它们始终处于最佳温度。 如果您看到温度升高,您可以获得更好的冷却装置。 之所以选择这个机箱,是因为它足够大,可以容纳这么多组件,而且只要它足够大,可以容纳组件和 4GPU SLI 套件,您就可以使用更高级的机箱。

的优点和缺点

同一枚硬币总是有两个方面,构建自己的工作站来处理 AI 项目也有其自身的起伏。

好的

如果您单独购买零件并自行组装,则成本会相对较低。 由服务提供商购买定制工作站的成本是自己组装工作站的 2 到 3 倍。
使用定制的产品时,您将不得不屈服于一些软件和硬件的限制,而当您自己组装一个时,您可以完全自由地按照自己的意愿构建它。
当谈到工作站时,总是有升级的机会。 如果您为自己建造了一个,那么每次您需要更改或修改时,您都将付出高昂的代价。

坏的

万一突然出现问题,您必须根据保修详细信息找出哪个部件有故障并进行维修或更换。 建议您始终对异地存储的数据进行备份,以防发生任何部件故障或事故。
拥有一个内部高成本的 AI 工作站意味着定期维护,而这是您必须自己承担的事情。
所有软件和硬件更新都必须由您的团队完成,否则您需要在需要时聘请专业人员。

硬件组装

除非您有过去的经验,否则最好聘请某人来完成这项任务,因为将所有东西放在一起需要额外的电缆、导热膏和一些技巧,以确保一切正常并有适当的散热.

软件安装

如果您要训练 ML 或 DL 模型,强烈建议您安装 Ubuntu 而不是 Windows。 根据您正在从事的项目类型,您还需要安装 Python、R 和不同的模块,例如 Tensorflow 和 Scikit,以帮助您完成日常工作。

ML/DL 的云服务

在处理 ML/DL 模型时,您肯定需要大量数据来训练模型或决定使用哪种算法。 JobsPikr、DataStock 和 Google 数据集搜索是一些很棒的基于云的服务,它们可能会派上用场。 如果你想在网络数据上训练你的模型,你甚至可以选择像 PromptCloud 这样的 DaaS 提供商。

结论

作为最后的声明,我想说成本抵消远远超过了劣势,除非您是一家需要多个具有维护协议的 AI 工作站的大公司,否则您应该构建自己的 AI 工作站。 构建自己的工作站并对其进行维护,不仅可以为您节省大量可用于业务其他地方的资金,还可以让您更接近所使用的硬件,以便您更多地了解 ML 或 DL 算法如何使用 GPU跑得更快,获得全面的了解。