Cum să construiți o stație de lucru pentru învățare automată/învățare profundă în 2019 – PromptCloud
Publicat: 2019-03-08 Într-o lume care este preluată de algoritmii de învățare automată și de învățare profundă, aveți nevoie de mașini mai rapide pentru a analiza și datele uriașe. În timp ce majoritatea „inginerilor de software” scapă folosind un laptop, în cazul în care doriți să vă construiți capabilitățile interne de AI, este o necesitate pentru dvs. să aveți o stație de lucru dedicată.
Construirea acestuia de către un furnizor de servicii ar putea ajunge să fie considerabil mai costisitoare decât asamblarea dvs. și de aceea am decis să ne aprofundăm în modus operandi pentru construirea unei stații de lucru ML/DL în 2019.
Ce ar trebui să țină fiara
Numim stația noastră de lucru „fiara” din cauza capacităților sale imense de calcul. Aici este configurația.
GPU- 4 X NVIDIA Tesla V100 Volta GPU Accelerator 32GB placă grafică
RAM- 4 X Supermicro – 128 GB memorie DDR4-2666 înregistrată
Procesor - Intel Xeon E5-2698 v4 2,2 GHz cu turbo-boost 3,60 GHz (20 de nuclee și 50 Mb Smart Cache)
Unitate de răcire GPU- Cooler VGA ARCTIC Accelero Xtreme+ II
Sursă de alimentare - CORSAIR AX1600i, 1600 wați, certificat de titan 80+, complet modulară - sursă de alimentare digitală
Placa de baza - Supermicro - Placa de baza X10SRA ATX LGA2011-3
Cooler CPU- ASUS ROG Ryujin 360 RGB AIO Liquid CPU Cooler Radiator de 360 mm (trei ventilatoare Noctua iPPC PWM de 120 mm cu 4 pini)
Cabinet- Thermaltake Level 20 ATX Full Tower Carcasa
Memorie - SSD Intel DC P4510 SERIES (4.0TB, 2.5in PCIe 3.1 x4, 3D2, TLC)
Deciziile la alegerea hardware-ului
Au fost luate în considerare mai multe lucruri la alegerea configurației hardware a acestui sistem. Le vom discuta, unul câte unul.
GPU Să vorbim despre cea mai importantă unitate a sistemului și de ce am ales-o. NVIDIA Tesla V100 este cel mai recent și mai avansat GPU pentru centre de date construit vreodată de NVIDIA. Stick-ul său de 32 GB îi ajută pe oamenii de știință de date și inginerii ML să petreacă mai puțin timp la fiecare iterație a modificărilor modelului, astfel încât să se poată concentra mai mult timp pe schimbarea modelului și pe rularea lui din nou, pentru a face descoperiri mai bune în AI. În cazul în care sunteți înnebunit după fișa cu specificații, permiteți-mi să vă spun, acesta vine cu 640 de nuclee tensor care oferă până la 125 teraflopi de performanță de deep learning. De asemenea, trebuie remarcat faptul că configurația noastră GPU recomandată de 4 V100-uri în SLI este folosită și de propria stație de lucru personalizată a NVIDIA, numită DGX STATION.
CPU Am ales un singur model bazat pe procesor pentru sistemul nostru, deoarece calculele noastre vor rula în principal pe GPU-ul propriu-zis, iar un procesor Intel Xeon cu 20 de nuclee și 40 de fire este suficient pentru orice calcul care ar putea consuma mult CPU. Un model dual CPU nu sporește performanța, ci se ocupă doar de sarcinile care necesită și mai multe nuclee în același timp. În cazul în care aveți nevoie de o configurare duală a procesorului, este recomandat să creați două stații de lucru. Sarcinile de lucru nu se scalează întotdeauna în modul în care s-ar putea aștepta cu procesoarele duale și este întotdeauna mai bine să folosiți unul singur cu nuclee mai mari.
RAM Deoarece multe sarcini bazate pe ML/DL sunt pe imagini sau videoclipuri, este important să aveți suficientă memorie pentru a încărca astfel de seturi de date uriașe. Acesta este motivul pentru care am optat pentru cea mai mare configurație posibilă de 128 GB X 4. În funcție de nevoile dvs. și de tipul de seturi de date pe care le-ați manipula, puteți alege și o configurație de 128 GB sau 256 GB. De asemenea, puteți lăsa câteva sloturi de memorie goale, deoarece actualizarea RAM este simplă și rentabilă.

Sursă de alimentare Deși recomand Corsair Ax1600i, ați putea merge cu orice sursă de alimentare care generează cel puțin 1500W de putere, deoarece această fiară a unei stații de lucru are nevoie de energie și are nevoie de 1500W la apogeu.
Placa de baza Placa de baza a fost decisa dupa ce a avut in vedere suportul pentru-
a) Procesor Intel Xeon.
b) O cantitate mare de RAM DDR4.
c) Procesoare Tesla V100 în SLI.
Memorie - A trecut vremurile hard disk-urilor, iar SSD este noua formă de memorie. Prin urmare, am decis să mergem cu cel mai bun SSD Intel din linie cu 4 Gb de stocare. Unitatea noastră acceptă extinderea ușoară, astfel încât să puteți adăuga mai multe module de memorie după cum aveți nevoie.
Unități de răcire și cabinet - Deși aparent neimportant, rularea unei mașini de 1500 W are propriile sale probleme și este o necesitate să instalați unități de răcire separat atât pentru GPU, cât și pentru procesor, astfel încât acestea să fie întotdeauna la temperatura optimă. În cazul în care vedeți creșteri ale temperaturii, puteți obține unități de răcire și mai bune. Carcasa a fost aleasă deoarece este suficient de mare pentru a ține atât de multe componente și puteți merge cu carcase mai luxoase atâta timp cât este suficient de mare pentru componente și setul 4GPU SLI.
Avantaje și dezavantaje
Există întotdeauna două fețe ale aceleiași monede și construirea propriei stații de lucru pentru a lucra la proiecte AI are și propriile sale suișuri și coborâșuri.
Binele
V-ar costa comparativ mai puțin dacă cumpărați piesele separat și le asamblați singur. Achiziționarea unei stații de lucru personalizate de către un furnizor de servicii ar costa oriunde între 2 și 3 ori mai mult decât ar fi să construiți unul singur.
Când alegeți unul personalizat, ar trebui să cedeți unor restricții de software și hardware, în timp ce atunci când creați unul singur, sunteți complet liber să îl construiți după cum doriți.
Când vine vorba de o stație de lucru, există întotdeauna șanse de actualizare. Dacă obțineți unul construit pentru dvs., veți plăti un preț mare de fiecare dată când aveți nevoie de o schimbare sau modificare.
Răul
În cazul în care ceva nu merge prost dintr-o dată, trebuie să aflați care parte este defectă și să o reparați sau să o schimbați, în funcție de detaliile garanției. Este recomandat să aveți întotdeauna o copie de rezervă a datelor stocate în afara amplasamentului în cazul unei defecțiuni sau a unui accident.
A avea o stație de lucru AI cu costuri ridicate în interiorul companiei înseamnă întreținere regulată, iar asta este ceva pe care va trebui să-l faci pe cont propriu.
Toate actualizările de software și hardware vor trebui să fie făcute de echipa dvs. sau va trebui să angajați un profesionist atunci când aveți nevoie.
Ansamblu hardware
Cu excepția cazului în care aveți pe cineva cu experiență anterioară, este bine să angajați pe cineva pentru sarcină, deoarece asamblarea totul va avea nevoie de cabluri suplimentare, pastă termică și câteva hack-uri, precum și pentru a vă asigura că totul funcționează bine și că există o disipare adecvată a căldurii. .
Instalări software
În cazul în care urmează să antrenați modele ML sau DL, este foarte recomandat să instalați Ubuntu și nu Windows. În funcție de tipul de proiecte la care lucrați, va trebui, de asemenea, să instalați Python, R și diferite module, cum ar fi Tensorflow și Scikit, să vă ajute în munca de zi cu zi.
Servicii cloud pentru ML/DL
În timp ce lucrați la modele ML/DL, cu siguranță veți avea nevoie de o mulțime de date pentru a antrena modele sau pentru a decide ce algoritm să utilizați. JobsPikr, DataStock și Google Dataset Search sunt câteva servicii excelente bazate pe cloud care ar putea fi utile. În cazul în care doriți să vă instruiți modelele pe date web, puteți chiar să alegeți furnizori DaaS precum PromptCloud.
Concluzie
Ca o afirmație finală, aș spune că compensarea costurilor depășește cu mult dezavantajele și, dacă nu sunteți o companie mare care are nevoie de mai multe stații de lucru AI cu acorduri de întreținere, ar trebui să vă construiți propria stație de lucru AI. Construirea propriei stații de lucru și întreținerea acesteia nu numai că vă va economisi o sumă uriașă de bani pe care o puteți folosi în altă parte a afacerii dvs., ci chiar vă va aduce mai aproape de hardware-ul pe care îl utilizați, astfel încât să înțelegeți mai multe despre cum algoritmii ML sau DL folosesc GPU-urile pentru a alergați mai repede și obțineți o înțelegere holistică.
