Come costruire una workstation di machine learning/deep learning nel 2019 – PromptCloud

Pubblicato: 2019-03-08
Mostra il sommario
Cosa dovrebbe tenere la bestia
Decisioni durante la scelta dell'hardware
Vantaggi e svantaggi
Il bene
Il cattivo
Assemblaggio hardware
Installazioni software
Servizi Cloud per ML/DL
Conclusione

In un mondo che viene conquistato da algoritmi di apprendimento automatico e deep learning, hai bisogno di macchine più veloci anche per elaborare dati enormi. Mentre la maggior parte degli "ingegneri del software" riesce a farla franca utilizzando un laptop, nel caso in cui desideri sviluppare le tue capacità di intelligenza artificiale interne, è indispensabile disporre di una workstation dedicata.
Farlo costruire per te da un fornitore di servizi potrebbe risultare notevolmente più costoso che assemblarne uno tu stesso, ed è per questo che abbiamo deciso di approfondire il modus operandi per la creazione di una workstation ML/DL nel 2019.

Cosa dovrebbe tenere la bestia

Chiamiamo la nostra workstation "la bestia" a causa delle sue immense capacità di calcolo. Ecco la configurazione.

GPU- 4 X NVIDIA Tesla V100 Volta GPU Accelerator 32GB Scheda grafica
RAM- 4 X Supermicro – 128 GB di memoria DDR4-2666 registrata
Processore : Intel Xeon E5-2698 v4 2,2 GHz con turbo boost 3,60 GHz (20 core e Smart Cache da 50 Mb)
Unità di raffreddamento GPU- ARCTIC Accelero Xtreme+ II VGA Cooler
Alimentatore- CORSAIR AX1600i, 1600 Watt, 80+ Titanio certificato, completamente modulare – Alimentatore digitale
Scheda madre - Scheda madre Supermicro - X10SRA ATX LGA2011-3
Dispositivo di raffreddamento della CPU- ASUS ROG Ryujin 360 RGB AIO Dispositivo di raffreddamento della CPU a liquido Radiatore da 360 mm (tre ventole Noctua iPPC PWM da 120 mm a 4 pin)
Cabinet - Case Full Tower ATX Livello 20 Thermaltake
Memoria: Intel SSD DC SERIE P4510 (4,0 TB, 2,5 pollici PCIe 3.1 x4, 3D2, TLC)

Decisioni durante la scelta dell'hardware

Diverse cose sono state prese in considerazione durante la scelta della configurazione hardware di questo sistema. Ne discuteremo, uno per uno.

GPU Parliamo dell'unità più importante del sistema e del perché l'abbiamo scelta. NVIDIA Tesla V100 è l'ultima e più avanzata GPU per data center mai realizzata da NVIDIA. La sua chiavetta da 32 GB aiuta i data scientist e gli ingegneri ML a dedicare meno tempo a ogni iterazione delle modifiche del modello in modo che possano concentrarsi più tempo sulla modifica del modello e sull'esecuzione di nuovo in modo da fare progressi migliori nell'IA. Nel caso in cui tu sia pazzo del foglio delle specifiche, lascia che te lo dica, questo viene fornito con 640 core tensore che offrono fino a 125 teraflop enormi di prestazioni di deep learning. Va inoltre notato che la nostra configurazione GPU consigliata di 4 V100 in SLI viene utilizzata anche dalla workstation personalizzata di NVIDIA chiamata DGX STATION.

CPU Abbiamo scelto un unico modello basato su CPU per il nostro sistema poiché i nostri calcoli verranno eseguiti principalmente sulla GPU stessa e un processore Intel Xeon a 20 core con 40 thread è sufficiente per qualsiasi calcolo che potrebbe richiedere un uso intensivo della CPU. Un modello con doppia CPU non aumenta le prestazioni ma si occupa solo di compiti che richiedono ancora più core contemporaneamente. Nel caso in cui sia necessaria una configurazione a doppia CPU, si consiglia di creare invece due workstation. I carichi di lavoro non sempre si adattano come ci si potrebbe aspettare con due CPU ed è sempre meglio usarne una singola con core più alti.

RAM Poiché molte attività basate su ML/DL sono su immagini o video, è importante disporre di memoria sufficiente per caricare set di dati così enormi. Questo è il motivo per cui abbiamo optato per la configurazione più alta possibile di 128 GB X 4. A seconda delle tue esigenze e del tipo di set di dati che vorresti gestire, potresti scegliere anche una configurazione da 128 GB o 256 GB. Potresti anche lasciare vuoti alcuni slot di memoria poiché l'aggiornamento della RAM è semplice ed economico.

Alimentazione Mentre io raccomando il Corsair Ax1600i, potresti effettivamente andare con qualsiasi alimentatore che genera almeno 1500 W di potenza poiché questa bestia di una workstation è affamata di energia e ha bisogno di 1500 W al suo apice.

Scheda madre La scheda madre è stata decisa tenendo presente il suo supporto per-
a) Processore Intel Xeon.
b) Una quantità elevata di RAM DDR4.
c) CPU Tesla V100 in SLI.

Memoria : sono finiti i giorni dei dischi rigidi e SSD è la nuova forma di memoria. Quindi abbiamo deciso di scegliere il miglior SSD Intel in linea con 4Gb di spazio di archiviazione. La nostra unità supporta una facile espansione in modo da poter aggiungere più moduli di memoria di cui hai bisogno.

Unità di raffreddamento e cabinet: sebbene apparentemente non importante, l'esecuzione di una macchina da 1500 W ha i suoi problemi ed è necessario installare le unità di raffreddamento separatamente sia per la GPU che per la CPU in modo che siano sempre alla loro temperatura ottimale. In caso di aumento della temperatura, puoi ottenere unità di raffreddamento ancora migliori. Il case è stato scelto in quanto è abbastanza grande da contenere così tanti componenti e puoi andare con case più elaborate purché sia ​​abbastanza grande per i componenti e il set SLI 4GPU.

Vantaggi e svantaggi

Ci sono sempre due facce della stessa medaglia e anche costruire la propria workstation per lavorare su progetti di intelligenza artificiale ha i suoi alti e bassi.

Il bene

Ti costerebbe relativamente meno se acquisti le parti separatamente e le monti tu stesso. L'acquisto di una workstation personalizzata da un fornitore di servizi costerebbe da 2 a 3 volte superiore a quella che costerebbe montarne una da soli.
Quando ne scegli uno personalizzato, dovresti cedere ad alcune restrizioni software e hardware, mentre quando ne metti insieme uno da solo, sei completamente libero di costruirlo come preferisci.
Quando si tratta di una workstation, ci sono sempre possibilità di aggiornamento. Se ne ottieni uno costruito per te, pagherai un prezzo elevato ogni volta che avrai bisogno di un cambiamento o una modifica.

Il cattivo

Nel caso in cui qualcosa vada storto all'improvviso, devi scoprire quale parte è difettosa e farla riparare o cambiare, a seconda dei dettagli della garanzia. Si consiglia di avere sempre una copia di backup dei dati archiviati fuori sede in caso di malfunzionamento o incidente delle parti.
Avere una workstation AI interna ad alto costo significa una manutenzione regolare, e questo è qualcosa che dovrai intraprendere da solo..
Tutti gli aggiornamenti software e hardware dovranno essere eseguiti dal tuo team o dovrai assumere un professionista quando necessario.

Assemblaggio hardware

A meno che tu non abbia qualcuno con esperienza passata, è bene assumere qualcuno per l'attività, dal momento che per mettere tutto insieme saranno necessari cavi extra, pasta termica e alcuni hack, nonché per assicurarsi che tutto funzioni bene e ci sia una corretta dissipazione del calore .

Installazioni software

Nel caso in cui intendi addestrare modelli ML o DL, si consiglia vivamente di installare Ubuntu e non Windows. A seconda del tipo di progetti su cui stai lavorando, dovrai anche installare Python, R e diversi moduli come Tensorflow e Scikit per imparare ad aiutarti nel lavoro quotidiano.

Servizi Cloud per ML/DL

Mentre lavori su modelli ML/DL, avrai sicuramente bisogno di molti dati per addestrare i modelli o decidere quale algoritmo utilizzare. JobsPikr, DataStock e Google Dataset Search sono alcuni ottimi servizi basati su cloud che potrebbero tornare utili. Nel caso in cui desideri addestrare i tuoi modelli sui dati web, potresti persino rivolgerti a provider DaaS come PromptCloud.

Conclusione

Come dichiarazione finale, direi che la compensazione dei costi supera di gran lunga gli svantaggi e, a meno che tu non sia una grande azienda che necessita di più workstation AI con accordi di manutenzione, dovresti costruire la tua workstation AI. Costruire la tua workstation e mantenerla non solo ti farà risparmiare un'enorme quantità di denaro che puoi utilizzare altrove nella tua attività, ma ti avvicinerà anche all'hardware che usi in modo da capire meglio come gli algoritmi ML o DL utilizzano le GPU per corri più veloce e ottieni una comprensione olistica.