2019 年に機械学習/深層学習ワークステーションを構築する方法 – PromptCloud

公開: 2019-03-08
目次を見る
獣が持つべきもの
ハードウェアを選択する際の決定事項
長所と短所
いいもの
悪い人
ハードウェア アセンブリ
ソフトウェアのインストール
ML/DL 向けクラウド サービス
結論

機械学習とディープ ラーニング アルゴリズムに乗っ取られている世界では、巨大なデータを処理するためのより高速なマシンも必要です。 ほとんどの「ソフトウェア エンジニア」はラップトップを使用して問題を解決しますが、社内で AI 機能を構築したい場合は、専用のワークステーションを用意する必要があります。
サービス プロバイダーに構築してもらうと、自分で組み立てるよりもかなりコストがかかる可能性があります。そのため、2019 年に ML/DL ワークステーションを構築する方法を詳しく調べることにしました。

獣が持つべきもの

私たちはワークステーションを「野獣」と呼んでいます。その膨大な計算能力からです。 これが構成です。

GPU- 4 X NVIDIA Tesla V100 Volta GPU アクセラレータ 32GB グラフィックス カード
RAM- 4 X Supermicro – 128 GB レジスタード DDR4-2666 メモリ
プロセッサー- Intel Xeon E5-2698 v4 2.2 GHz、ターボブースト 3.60 GHz (20 コアおよび 50 Mb スマートキャッシュ)
GPU 冷却ユニット - ARCTIC Accelero Xtreme+ II VGA クーラー
電源 - CORSAIR AX1600i、1600 ワット、80+ チタン認定、完全モジュール式 - デジタル電源
マザーボード- Supermicro – X10SRA ATX LGA2011-3 マザーボード
CPU クーラー - ASUS ROG Ryujin 360 RGB AIO Liquid CPU Cooler 360mm ラジエーター (3 つの 120mm 4 ピン Noctua iPPC PWM ファン)
キャビネット - Thermaltakeレベル 20 ATX フルタワーケース
メモリ -インテル SSD DC P4510 シリーズ (4.0TB、2.5 インチ PCIe 3.1 x4、3D2、TLC)

ハードウェアを選択する際の決定事項

このシステムのハードウェア構成を選択する際には、いくつかの点が考慮されました。 それらについて、1つずつ説明します。

GPUシステムの最も重要なユニットと、それを選んだ理由について話しましょう。 NVIDIA Tesla V100 は、NVIDIA が構築した最新かつ最先端のデータセンター GPU です。 その 32GB スティックは、データ サイエンティストと ML エンジニアがモデル変更の各反復に費やす時間を短縮するのに役立ち、モデルの変更と再実行により多くの時間を集中させて、AI のブレークスルーを改善することができます。 スペック シートに夢中になっている場合は、これに 640 のテンソル コアが付属しており、最大 125 テラフロップスの巨大なディープ ラーニング パフォーマンスを実現します。 SLI での 4 つの V100 の推奨 GPU 構成は、DGX STATION と呼ばれる NVIDIA 独自のカスタム ワークステーションでも使用されていることにも注意してください。

CPU計算は主に GPU 自体で実行されるため、システムには単一の CPU ベースのモデルを選択しました。CPU を集中的に使用する可能性のある計算には、40 スレッドの 20 コア Intel Xeon プロセッサで十分です。 デュアル CPU モデルはパフォーマンスを向上させませんが、同時にさらに多くのコアを必要とするタスクのみを処理します。 デュアル CPU セットアップが必要な場合は、代わりに 2 台のワークステーションを作成することをお勧めします。 ワークロードは、デュアル CPU で期待される方法で常にスケーリングされるとは限りません。代わりに、より高いコアを備えた単一の CPU を使用することを常にお勧めします。

RAM多くの ML/DL ベースのタスクは画像や動画を対象としているため、このような巨大なデータセットをロードするのに十分なメモリを確保することが重要です。 これが、128GB X 4 という可能な限り高い構成を採用した理由です。ニーズと処理するデータセットのタイプに応じて、128GB または 256GB の構成を選択することもできます。 RAM のアップグレードは簡単で費用対効果が高いため、いくつかのメモリ スロットを空のままにしておくこともできます。

電源私は Corsair Ax1600i をお勧めしますが、実際には少なくとも 1500W の電力を生成する任意の電源ユニットを使用できます。

マザーボードマザーボードは、以下のサポートを考慮して決定されました。
a) インテル Xeon プロセッサー。
b) 大量の DDR4 RAM。
c) SLI の Tesla V100 CPU。

メモリ - ハードディスクの時代は終わり、SSD は新しい形のメモリです。 そのため、4Gb のストレージを備えた最高のインライン Intel SSD を使用することにしました。 当社のユニットは簡単な拡張をサポートしているため、必要に応じてメモリ モジュールを追加できます。

冷却ユニットとキャビネット -一見重要ではないように見えますが、1500W マシンの実行には独自の問題があり、GPU と CPU の両方に冷却ユニットを別々に取り付けて、常に最適な温度に保つ必要があります。 温度の上昇が見られる場合は、さらに優れた冷却ユニットを入手できます。 このケースは、非常に多くのコンポーネントを保持するのに十分な大きさであり、コンポーネントと 4GPU SLI セットに十分な大きさである限り、より洗練されたケースを使用できるため、選択されました。

長所と短所

コインには常に裏表が​​あり、AI プロジェクトに取り組む独自のワークステーションを構築することにも、それぞれ浮き沈みがあります。

いいもの

部品を個別に購入して自分で組み立てると、比較的安価になります。 サービス プロバイダーが特注で作成したワークステーションを購入すると、自分で組み立てる場合の 2 ~ 3 倍の費用がかかります。
特注の場合は、ソフトウェアとハ​​ードウェアの制限に屈する必要がありますが、自分で組み立てる場合は、完全に自由に自分の好きなように構築できます。
ワークステーションに関しては、アップグレードの可能性が常にあります。 自分用に構築されたものを入手すると、変更や修正が必要になるたびに大きな代償を払うことになります。

悪い人

突然何かがうまくいかない場合は、保証の詳細に応じて、どの部分が故障しているかを調べて修理または交換する必要があります. 部品の誤動作や事故に備えて、オフサイトに保存されているデータのバックアップ コピーを常に用意しておくことをお勧めします。
社内に高価な AI ワークステーションを持つということは、定期的なメンテナンスを意味し、それは自分で行わなければならないことです..
すべてのソフトウェアとハ​​ードウェアの更新は、チームが行うか、必要に応じて専門家を雇う必要があります。

ハードウェア アセンブリ

過去の経験のある人がいない限り、誰かを雇って作業を依頼することをお勧めします。すべてを組み立てるには、追加のケーブル、サーマル ペースト、およびいくつかのハックが必要であり、すべてが正常に機能し、適切な熱放散があることを確認する必要があるためです。 .

ソフトウェアのインストール

ML または DL モデルをトレーニングする場合は、Windows ではなく Ubuntu をインストールすることを強くお勧めします。 取り組んでいるプロジェクトの種類に応じて、Python、R、および Tensorflow や Scikit などのさまざまなモジュールをインストールして、日々の作業を支援する必要があります。

ML/DL 向けクラウド サービス

ML/DL モデルの作業中は、モデルをトレーニングしたり、使用するアルゴリズムを決定したりするために大量のデータが必要になることは間違いありません。 JobsPikr、DataStock、Google Dataset Search は、便利な優れたクラウドベースのサービスです。 モデルを Web データでトレーニングする場合は、PromptCloud などの DaaS プロバイダーを利用することもできます。

結論

最後に、コスト オフセットはデメリットをはるかに上回るものであり、保守契約を結んで複数の AI ワークステーションを必要とする大企業でない限り、独自の AI ワークステーションを構築する必要があります。 独自のワークステーションを構築して維持することは、ビジネスの他の場所で使用できる莫大な金額を節約するだけでなく、使用するハードウェアに近づけることもできるため、ML または DL アルゴリズムが GPU を使用してどのように処理を行うかについて理解を深めることができます。より速く実行し、全体的な理解を得る.