So bauen Sie 2019 eine Workstation für maschinelles Lernen/Deep Learning – PromptCloud

Veröffentlicht: 2019-03-08
Inhaltsverzeichnis anzeigen
Was das Biest halten sollte
Entscheidungen bei der Auswahl der Hardware
Vorteile und Nachteile
Der gute
Das Schlechte
Hardware-Montage
Softwareinstallationen
Cloud-Dienste für ML/DL
Fazit

In einer Welt, die von maschinellem Lernen und Deep-Learning-Algorithmen übernommen wird, brauchen Sie auch schnellere Maschinen, um die riesigen Datenmengen zu verarbeiten. Während die meisten „Softwareentwickler“ mit der Verwendung eines Laptops davonkommen, ist es für den Fall, dass Sie Ihre internen KI-Fähigkeiten aufbauen möchten, ein Muss, dass Sie über eine dedizierte Workstation verfügen.
Es für Sie von einem Dienstleister bauen zu lassen, kann am Ende erheblich teurer sein, als selbst eines zusammenzubauen, und deshalb haben wir uns entschieden, 2019 tief in die Vorgehensweise zum Bau einer ML/DL-Workstation einzutauchen.

Was das Biest halten sollte

Wir nennen unsere Workstation wegen ihrer immensen Rechenleistung „das Biest“. Hier ist die Konfiguration.

GPU- 4 X NVIDIA Tesla V100 Volta GPU Accelerator 32 GB Grafikkarte
RAM- 4 X Supermicro – 128 GB registrierter DDR4-2666-Speicher
Prozessor – Intel Xeon E5-2698 v4 2,2 GHz mit Turbo-Boost 3,60 GHz (20 Kerne und 50 MB Smart Cache)
GPU-Kühleinheit – ARCTIC Accelero Xtreme+ II VGA-Kühler
Netzteil – CORSAIR AX1600i, 1600 Watt, 80+ Titanium-zertifiziert, vollständig modular – digitales Netzteil
Motherboard – Supermicro – X10SRA ATX LGA2011-3 Motherboard
CPU-Kühler – ASUS ROG Ryujin 360 RGB AIO CPU-Flüssigkeitskühler 360-mm-Radiator (drei 120-mm-4-Pin-Noctua-iPPC-PWM-Lüfter)
Gehäuse - Thermaltake Level 20 ATX-Full-Tower-Gehäuse
Arbeitsspeicher – Intel SSD DC P4510 SERIE (4,0 TB, 2,5 Zoll PCIe 3.1 x4, 3D2, TLC)

Entscheidungen bei der Auswahl der Hardware

Bei der Auswahl der Hardwarekonfiguration dieses Systems wurden mehrere Dinge berücksichtigt. Wir werden sie einzeln besprechen.

GPU Lassen Sie uns über die wichtigste Einheit des Systems sprechen und warum wir sie gewählt haben. NVIDIA Tesla V100 ist die neueste und fortschrittlichste Rechenzentrums-GPU, die NVIDIA je gebaut hat. Sein 32-GB-Stick hilft Datenwissenschaftlern und ML-Ingenieuren, weniger Zeit für jede Iteration von Modelländerungen aufzuwenden, sodass sie sich mehr Zeit auf die Änderung des Modells und seine erneute Ausführung konzentrieren können, um bessere Durchbrüche in der KI zu erzielen. Falls Sie verrückt nach dem Datenblatt sind, lassen Sie mich Ihnen sagen, dass dieser mit 640 Tensorkernen ausgestattet ist, die bis zu gigantische 125 Teraflops an Deep-Learning-Leistung liefern. Es ist auch zu beachten, dass unsere empfohlene GPU-Konfiguration von 4 V100s in SLI auch von NVIDIAs eigener benutzerdefinierter Workstation namens DGX STATION verwendet wird.

CPU Wir haben für unser System ein einzelnes CPU-basiertes Modell gewählt, da unsere Berechnungen hauptsächlich auf der GPU selbst ausgeführt werden und ein Intel Xeon-Prozessor mit 20 Kernen und 40 Threads für alle Berechnungen ausreicht, die CPU-intensiv sein könnten. Ein Dual-CPU-Modell steigert die Leistung nicht, sondern kümmert sich nur um Aufgaben, die noch mehr Kerne gleichzeitig benötigen. Falls Sie ein Dual-CPU-Setup benötigen, wird empfohlen, stattdessen zwei Workstations einzurichten. Workloads skalieren nicht immer so, wie man es von Dual-CPUs erwarten könnte, und es ist immer besser, stattdessen eine einzelne CPU mit höheren Kernen zu verwenden.

RAM Da sich viele ML/DL-basierte Aufgaben auf Bilder oder Videos beziehen, ist es wichtig, genügend Arbeitsspeicher zu haben, um solch riesige Datensätze zu laden. Aus diesem Grund haben wir uns für die höchstmögliche Konfiguration von 128 GB x 4 entschieden. Abhängig von Ihren Anforderungen und der Art der zu verarbeitenden Datensätze können Sie sich auch für eine Konfiguration mit 128 GB oder 256 GB entscheiden. Sie können auch ein paar Speicherplätze leer lassen, da die Aufrüstung des Arbeitsspeichers einfach und kostengünstig ist.

Netzteil Obwohl ich das Corsair Ax1600i empfehle, könnten Sie eigentlich jedes Netzteil verwenden, das mindestens 1500 W Leistung erzeugt, da dieses Biest von einer Workstation stromhungrig ist und in der Spitze 1500 W benötigt.

Motherboard Das Motherboard wurde unter Berücksichtigung seiner Unterstützung für
a) Intel Xeon-Prozessor.
b) Viel DDR4-RAM.
c) Tesla V100-CPUs in SLI.

Speicher – Vorbei sind die Zeiten der Festplatten, und SSD ist die neue Form des Speichers. Daher haben wir uns für die beste Intel SSD mit 4 GB Speicher entschieden. Unser Gerät unterstützt eine einfache Erweiterung, sodass Sie bei Bedarf weitere Speichermodule hinzufügen können.

Kühleinheiten und Gehäuse – Obwohl scheinbar unwichtig, hat der Betrieb einer 1500-W-Maschine ihre eigenen Probleme, und es ist ein Muss, dass Sie Kühleinheiten separat für die GPU und die CPU installieren, damit sie immer ihre optimale Temperatur haben. Falls Sie Temperaturerhöhungen feststellen, können Sie noch bessere Kühleinheiten erhalten. Das Gehäuse wurde gewählt, da es groß genug ist, um so viele Komponenten aufzunehmen, und Sie können schickere Gehäuse verwenden, solange es groß genug für die Komponenten und das 4GPU-SLI-Set ist.

Vorteile und Nachteile

Es gibt immer zwei Seiten derselben Medaille, und der Aufbau einer eigenen Workstation für die Arbeit an KI-Projekten hat auch seine eigenen Höhen und Tiefen.

Der gute

Es würde Sie vergleichsweise weniger kosten, wenn Sie die Teile separat kaufen und selbst zusammenbauen. Der Kauf einer maßgefertigten Workstation durch einen Dienstleister würde zwischen 2- und 3-mal so viel kosten wie eine eigene Zusammenstellung.
Wenn Sie sich für ein kundenspezifisches Modell entscheiden, müssen Sie einigen Software- und Hardwarebeschränkungen nachgeben, während Sie bei der Zusammenstellung eines eigenen Modells völlig frei sind, es so zu erstellen, wie Sie möchten.
Wenn es um eine Workstation geht, gibt es immer Möglichkeiten zur Aufwertung. Wenn Sie eines für sich bauen lassen, zahlen Sie jedes Mal einen hohen Preis, wenn Sie eine Änderung oder Modifikation benötigen.

Das Schlechte

Falls plötzlich etwas schief geht, müssen Sie herausfinden, welches Teil defekt ist, und es je nach Garantiedetails reparieren oder austauschen lassen. Es wird empfohlen, dass Sie für den Fall einer Fehlfunktion oder eines Unfalls eines Teils immer eine Sicherungskopie der extern gespeicherten Daten haben.
Eine eigene teure KI-Workstation zu haben, bedeutet regelmäßige Wartung, und das müssen Sie selbst durchführen.
Alle Software- und Hardware-Updates müssen von Ihrem Team durchgeführt werden, oder Sie müssen bei Bedarf einen Fachmann beauftragen.

Hardware-Montage

Es ist gut, jemanden für die Aufgabe einzustellen, es sei denn, Sie haben jemanden mit Erfahrung in der Vergangenheit, da für das Zusammenbauen von allem zusätzliche Kabel, Wärmeleitpaste und einige Hacks erforderlich sind, um sicherzustellen, dass alles gut funktioniert und die Wärmeableitung ordnungsgemäß erfolgt .

Softwareinstallationen

Falls Sie ML- oder DL-Modelle trainieren, wird dringend empfohlen, Ubuntu und nicht Windows zu installieren. Je nachdem, an welcher Art von Projekten Sie arbeiten, müssen Sie auch Python, R und verschiedene Module wie Tensorflow und Scikit Learn installieren, um Sie bei der täglichen Arbeit zu unterstützen.

Cloud-Dienste für ML/DL

Während Sie an ML/DL-Modellen arbeiten, benötigen Sie definitiv viele Daten, um Modelle zu trainieren oder zu entscheiden, welcher Algorithmus verwendet werden soll. JobsPikr, DataStock und Google Dataset Search sind einige großartige Cloud-basierte Dienste, die sich als nützlich erweisen könnten. Falls Sie Ihre Modelle mit Webdaten trainieren möchten, können Sie sich sogar für DaaS-Anbieter wie PromptCloud entscheiden.

Fazit

Als abschließende Aussage würde ich sagen, dass der Kostenausgleich die Nachteile bei weitem überwiegt, und wenn Sie kein großes Unternehmen sind, das mehrere KI-Arbeitsplätze mit Wartungsverträgen benötigt, sollten Sie Ihren eigenen KI-Arbeitsplatz bauen. Durch den Aufbau und die Wartung Ihrer eigenen Workstation sparen Sie nicht nur eine Menge Geld, das Sie an anderer Stelle in Ihrem Unternehmen verwenden können, sondern bringen Sie auch näher an die von Ihnen verwendete Hardware heran, sodass Sie besser verstehen, wie ML- oder DL-Algorithmen GPUs verwenden schneller laufen und ein ganzheitliches Verständnis gewinnen.