Jak zbudować stację roboczą do uczenia maszynowego/głębokiego uczenia w 2019 roku – PromptCloud

Opublikowany: 2019-03-08
Spis treści pokaż
Co bestia powinna trzymać?
Decyzje przy wyborze sprzętu
Zalety i wady
Dobry
Złe
Montaż sprzętu
Instalacje oprogramowania
Usługi w chmurze dla ML/DL
Wniosek

W świecie opanowanym przez algorytmy uczenia maszynowego i głębokiego uczenia się potrzebujesz szybszych maszyn do przetwarzania ogromnych danych. Podczas gdy większość „inżynierów oprogramowania” uchodzi na sucho za pomocą laptopa, jeśli chcesz zbudować własne możliwości sztucznej inteligencji, musisz mieć dedykowaną stację roboczą.
Zbudowanie go dla Ciebie przez dostawcę usług może okazać się znacznie droższe niż samodzielne złożenie, dlatego postanowiliśmy zagłębić się w modus operandi budowy stacji roboczej ML/DL w 2019 roku.

Co bestia powinna trzymać?

Nazywamy naszą stację roboczą „bestią” ze względu na jej ogromne możliwości obliczeniowe. Oto konfiguracja.

GPU- 4 X NVIDIA Tesla V100 Volta akcelerator GPU 32 GB karta graficzna
RAM -4 X Supermicro – 128 GB Zarejestrowana pamięć DDR4-2666
Procesor — Intel Xeon E5-2698 v4 2,2 GHz z turbodoładowaniem 3,60 GHz (20 rdzeni i 50 Mb Smart Cache)
Układ chłodzenia GPU- ARCTIC Accelero Xtreme+ II VGA Cooler
Zasilacz — CORSAIR AX1600i, 1600 W, certyfikat 80+ Titanium, w pełni modułowy — zasilacz cyfrowy
Płyta główna Supermicro – X10SRA ATX LGA2011-3 Płyta główna
Chłodnica procesora- ASUS ROG Ryujin 360 RGB AIO płynna chłodnica procesora 360mm chłodnica (trzy 120mm 4-pinowe wentylatory Noctua iPPC PWM)
Szafka — obudowa Full Tower Thermaltake Level 20 ATX
Pamięć — Intel SSD DC P4510 SERIES (4,0 TB, 2,5 cala PCIe 3,1 x4, 3D2, TLC)

Decyzje przy wyborze sprzętu

Przy wyborze konfiguracji sprzętowej tego systemu wzięto pod uwagę kilka rzeczy. Omówimy je jeden po drugim.

GPU Porozmawiajmy o najważniejszej jednostce systemu i dlaczego ją wybraliśmy. NVIDIA Tesla V100 to najnowszy i najbardziej zaawansowany procesor graficzny dla centrów danych, jaki kiedykolwiek został zbudowany przez firmę NVIDIA. Jego 32-gigabajtowy pendrive pomaga naukowcom danych i inżynierom ML spędzać mniej czasu na każdej iteracji zmian modelu, dzięki czemu mogą skupić się więcej czasu na zmianie modelu i ponownym uruchomieniu go, aby dokonać lepszych przełomów w sztucznej inteligencji. Jeśli masz bzika na punkcie specyfikacji, powiem ci, że ten jest wyposażony w 640 rdzeni tensorowych, które zapewniają do 125 teraflopów wydajności głębokiego uczenia. Należy również zauważyć, że zalecana przez nas konfiguracja GPU, składająca się z 4 V100 w SLI, jest również używana przez własną, niestandardową stację roboczą NVIDIA o nazwie DGX STATION.

Procesor Wybraliśmy dla naszego systemu jeden model oparty na procesorze, ponieważ nasze obliczenia będą działać głównie na samym GPU, a 20-rdzeniowy procesor Intel Xeon z 40 wątkami wystarczy do wszelkich obliczeń, które mogą intensywnie obciążać procesor. Model z dwoma procesorami nie zwiększa wydajności, a jedynie obsługuje zadania wymagające jednocześnie większej liczby rdzeni. Jeśli potrzebujesz konfiguracji z dwoma procesorami, zaleca się utworzenie dwóch stacji roboczych. Obciążenia nie zawsze skalują się w sposób, jakiego można by oczekiwać w przypadku dwóch procesorów, i zawsze lepiej jest użyć jednego z wyższymi rdzeniami.

RAM Ponieważ wiele zadań opartych na ML/DL opiera się na obrazach lub filmach, ważne jest posiadanie wystarczającej ilości pamięci, aby załadować tak ogromne zbiory danych. Z tego powodu wybraliśmy najwyższą możliwą konfigurację 128 GB x 4. W zależności od potrzeb i typu zestawów danych, które chcesz obsługiwać, możesz wybrać konfigurację 128 GB lub 256 GB. Możesz również pozostawić kilka pustych gniazd pamięci, ponieważ uaktualnianie pamięci RAM jest proste i opłacalne.

Zasilacz Chociaż polecam Corsair Ax1600i, możesz wybrać dowolny zasilacz, który generuje co najmniej 1500 W mocy, ponieważ ta bestia na stacji roboczej jest energochłonna i potrzebuje 1500 W w szczytowym momencie.

Płyta główna Wybrano płytę główną, mając na uwadze jej wsparcie dla-
a) Procesor Intel Xeon.
b) Duża ilość pamięci RAM DDR4.
c) Procesory Tesla V100 w SLI.

Pamięć — minęły czasy dysków twardych, a SSD to nowa forma pamięci. Dlatego zdecydowaliśmy się na najlepszy dysk Intel SSD z 4 GB pamięci. Nasze urządzenie obsługuje łatwą rozbudowę, dzięki czemu możesz dodać więcej modułów pamięci, ile potrzebujesz.

Chłodziarki i szafka- Chociaż pozornie nieistotne, uruchomienie maszyny o mocy 1500 W ma swoje własne problemy i konieczne jest zainstalowanie jednostek chłodzących osobno dla GPU i CPU, aby zawsze były w optymalnej temperaturze. Jeśli zauważysz wzrost temperatury, możesz uzyskać jeszcze lepsze jednostki chłodzące. Obudowa została wybrana, ponieważ jest wystarczająco duża, aby pomieścić tak wiele komponentów i możesz iść z bardziej wyszukanymi obudowami, o ile jest wystarczająco duża dla komponentów i zestawu 4GPU SLI.

Zalety i wady

Zawsze są dwie strony tego samego medalu, a budowanie własnej stacji roboczej do pracy nad projektami AI również ma swoje wzloty i upadki.

Dobry

Kosztowałoby to stosunkowo mniej, jeśli kupisz części osobno i zmontujesz je samodzielnie. Zakup stacji roboczej zbudowanej na zamówienie przez dostawcę usług kosztowałby od 2 do 3 razy więcej niż samodzielne złożenie takiej stacji.
Wybierając się z niestandardowym, musiałbyś poddać się pewnym ograniczeniom programowym i sprzętowym, podczas gdy gdy tworzysz go sam, możesz go zbudować tak, jak chcesz.
Jeśli chodzi o stację roboczą, zawsze istnieje szansa na uaktualnienie. Jeśli zbudujesz taki dla siebie, będziesz płacić wysoką cenę za każdym razem, gdy będziesz potrzebować zmiany lub modyfikacji.

Złe

Jeśli nagle coś pójdzie nie tak, musisz dowiedzieć się, która część jest uszkodzona i naprawić lub wymienić, w zależności od szczegółów gwarancji. Zaleca się, aby zawsze mieć kopię zapasową danych przechowywaną poza siedzibą firmy na wypadek awarii jakiejkolwiek części lub wypadku.
Posiadanie własnej, drogiej stacji roboczej AI oznacza regularną konserwację i jest to coś, co będziesz musiał wykonać samodzielnie..
Wszystkie aktualizacje oprogramowania i sprzętu będą musiały zostać wykonane przez Twój zespół lub będziesz musiał zatrudnić profesjonalistę, gdy zajdzie taka potrzeba.

Montaż sprzętu

O ile nie masz kogoś z doświadczeniem, dobrze jest zatrudnić kogoś do tego zadania, ponieważ złożenie wszystkiego w całość będzie wymagało dodatkowych kabli, pasty termicznej i kilku hacków, aby upewnić się, że wszystko działa dobrze i jest odpowiednie odprowadzanie ciepła .

Instalacje oprogramowania

Jeśli zamierzasz trenować modele ML lub DL, zdecydowanie zaleca się zainstalowanie Ubuntu, a nie Windows. W zależności od rodzaju projektów, nad którymi pracujesz, będziesz musiał również zainstalować Python, R i różne moduły, takie jak Tensorflow i Scikit, które pomogą Ci w codziennej pracy.

Usługi w chmurze dla ML/DL

Podczas pracy nad modelami ML/DL na pewno będziesz potrzebować dużej ilości danych, aby trenować modele lub zdecydować, którego algorytmu użyć. JobsPikr, DataStock i Google Dataset Search to świetne usługi oparte na chmurze, które mogą się przydać. Jeśli chcesz trenować swoje modele na danych internetowych, możesz nawet wybrać dostawców DaaS, takich jak PromptCloud.

Wniosek

Na koniec powiedziałbym, że wyrównanie kosztów znacznie przewyższa wady i jeśli nie jesteś dużą firmą, która potrzebuje wielu stacji roboczych AI z umowami serwisowymi, powinieneś zbudować własną stację roboczą AI. Zbudowanie własnej stacji roboczej i utrzymywanie jej nie tylko zaoszczędzi ogromną ilość pieniędzy, które możesz wykorzystać w innym miejscu w firmie, ale nawet przybliży Cię do używanego sprzętu, aby lepiej zrozumieć, w jaki sposób algorytmy ML lub DL wykorzystują procesory graficzne do biegnij szybciej i zyskaj całościowe zrozumienie.