2019년에 머신 러닝/딥 러닝 워크스테이션을 구축하는 방법 – PromptCloud

게시 됨: 2019-03-08
목차
짐승이 지켜야 할 것
하드웨어 선택 시 결정
장점과 단점
좋은
나쁜
하드웨어 어셈블리
소프트웨어 설치
ML/DL용 클라우드 서비스
결론

머신 러닝과 딥 러닝 알고리즘이 장악하고 있는 세상에서 방대한 데이터를 처리하려면 더 빠른 머신도 필요합니다. 대부분의 "소프트웨어 엔지니어"는 랩톱 사용을 꺼려하지만 사내 AI 기능을 구축하려는 경우 전용 워크스테이션이 있어야 합니다.
서비스 제공업체에서 구축하는 것은 결국 직접 조립하는 것보다 비용이 상당히 많이 들 수 있으므로 2019년에 ML/DL 워크스테이션 구축 방식을 자세히 살펴보기로 결정했습니다.

짐승이 지켜야 할 것

엄청난 계산 능력 때문에 우리는 워크스테이션을 "야수"라고 부릅니다. 다음은 구성입니다.

GPU - 4 X NVIDIA Tesla V100 Volta GPU 가속기 32GB 그래픽 카드
RAM- 4 X Supermicro – 128GB 등록 DDR4-2666 메모리
프로세서 - Intel Xeon E5-2698 v4 2.2GHz, 터보 부스트 3.60GHz(20코어 및 50Mb 스마트 캐시)
GPU 냉각 장치 - ARCTIC Accelero Xtreme+ II VGA 쿨러
전원 공급 장치 - CORSAIR AX1600i, 1600와트, 80+ 티타늄 인증, 완전 모듈식 – 디지털 전원 공급 장치
마더보드 - Supermicro - X10SRA ATX LGA2011-3 마더보드
CPU 쿨러 - ASUS ROG Ryujin 360 RGB AIO 액체 CPU 쿨러 360mm 라디에이터(120mm 4핀 Noctua iPPC PWM 팬 3개)
캐비닛 - Thermaltake 레벨 20 ATX 풀 타워 케이스
메모리 - Intel SSD DC P4510 시리즈(4.0TB, 2.5인치 PCIe 3.1 x4, 3D2, TLC)

하드웨어 선택 시 결정

이 시스템의 하드웨어 구성을 선택하는 동안 몇 가지 사항이 고려되었습니다. 우리는 그것들을 하나씩 논의할 것입니다.

GPU 시스템의 가장 중요한 단위와 이를 선택한 이유에 대해 이야기해 보겠습니다. NVIDIA Tesla V100은 NVIDIA가 구축한 최신 데이터 센터 GPU입니다. 32GB 스틱을 사용하면 데이터 과학자와 ML 엔지니어가 모델 변경을 반복할 때마다 더 적은 시간을 할애할 수 있으므로 모델을 변경하고 다시 실행하는 데 더 많은 시간을 집중하여 AI에서 더 나은 혁신을 이룰 수 있습니다. 사양 시트에 열광하는 경우를 대비하여 최대 125테라플롭의 딥 러닝 성능을 제공하는 640개의 텐서 코어와 함께 제공됩니다. SLI에서 4 V100의 권장 GPU 구성은 DGX STATION이라는 NVIDIA의 자체 맞춤형 워크스테이션에서도 사용됩니다.

CPU 우리는 계산이 주로 GPU 자체에서 실행되고 40개 스레드가 있는 20코어 Intel Xeon 프로세서로 CPU 집약적일 수 있는 모든 계산에 충분하기 때문에 시스템에 대해 단일 CPU 기반 모델을 선택했습니다. 듀얼 CPU 모델은 성능을 향상시키지 않고 동시에 더 많은 코어가 필요한 작업만 처리합니다. 듀얼 CPU 설정이 필요한 경우 대신 두 개의 워크스테이션을 만드는 것이 좋습니다. 워크로드는 항상 듀얼 CPU에서 예상하는 방식으로 확장되지 않으며 대신 코어가 더 높은 단일 CPU를 사용하는 것이 항상 좋습니다.

RAM 많은 ML/DL 기반 작업이 이미지 또는 비디오에 있기 때문에 이러한 거대한 데이터 세트를 로드할 수 있는 충분한 메모리를 갖는 것이 중요합니다. 이것이 우리가 128GB X 4의 가능한 가장 높은 구성을 선택한 이유입니다. 귀하의 요구 사항과 처리할 데이터 세트 유형에 따라 128GB 또는 256GB 구성도 선택할 수 있습니다. RAM 업그레이드가 간단하고 비용 효율적이기 때문에 몇 개의 메모리 슬롯을 비워 둘 수도 있습니다.

전원 공급 장치 Corsair Ax1600i를 추천하지만 실제로 워크스테이션의 이 짐승은 전력 소모가 많고 최대 1500W가 필요하기 때문에 최소 1500W 전력을 생성하는 모든 전원 공급 장치를 사용할 수 있습니다.

마더보드 마더보드는 다음 지원을 염두에 두고 결정되었습니다.
a) 인텔 제온 프로세서.
b) 많은 양의 DDR4 RAM.
c) SLI의 Tesla V100 CPU.

메모리 - 하드 디스크의 시대는 지났고 SSD는 새로운 형태의 메모리입니다. 따라서 우리는 4Gb 스토리지를 갖춘 최고의 Intel SSD를 사용하기로 결정했습니다. 우리 장치는 손쉬운 확장을 지원하므로 필요에 따라 더 많은 메모리 모듈을 추가할 수 있습니다.

냉각 장치 및 캐비닛 - 중요하지 않은 것처럼 보이지만 1500W 시스템을 실행하는 자체 문제가 있으며 GPU와 CPU에 냉각 장치를 별도로 설치하여 항상 최적의 온도를 유지해야 합니다. 온도가 상승하는 경우 더 나은 냉각 장치를 얻을 수 있습니다. 케이스는 많은 구성 요소를 수용할 수 있을 만큼 충분히 크며 구성 요소와 4GPU SLI 세트를 수용할 만큼 크면 더 멋진 케이스로 갈 수 있기 때문에 선택되었습니다.

장점과 단점

같은 동전의 양면은 항상 존재하며 AI 프로젝트를 수행하기 위해 자신의 워크스테이션을 구축하는 것도 나름대로의 기복이 있습니다.

좋은

부품을 따로 사서 직접 조립하면 비용이 비교적 적게 듭니다. 서비스 제공업체가 맞춤형으로 제작한 워크스테이션을 구입하는 것은 직접 조립하는 것보다 2~3배 더 비쌉니다.
사용자 정의 빌드를 사용할 때는 일부 소프트웨어 및 하드웨어 제한 사항에 굴복해야 하는 반면, 직접 조립할 때는 원하는 대로 완전히 자유롭게 빌드할 수 있습니다.
워크스테이션의 경우 항상 업그레이드 가능성이 있습니다. 당신을 위해 만들어진 것을 얻는다면, 당신은 변경이나 수정이 필요할 때마다 큰 대가를 치르게 될 것입니다.

나쁜

갑자기 무슨 일이 생기면 보증 내용에 따라 어느 부분에 문제가 있는지 찾아 수리하거나 교체해야 합니다. 부품 오작동이나 사고에 대비하여 항상 오프사이트에 데이터의 백업 사본을 보관하는 것이 좋습니다.
자체적으로 고가의 AI 워크스테이션을 보유한다는 것은 정기적인 유지 관리를 의미하며, 이는 사용자가 직접 수행해야 하는 작업입니다..
모든 소프트웨어 및 하드웨어 업데이트는 팀에서 수행해야 하거나 필요할 때 전문가를 고용해야 합니다.

하드웨어 어셈블리

과거 경험이 있는 사람이 아닌 한 작업을 위해 누군가를 고용하는 것이 좋습니다. 모든 것을 함께 구성하려면 추가 케이블, 열 페이스트 및 몇 가지 해킹이 필요하고 모든 것이 제대로 작동하고 적절한 방열이 있는지 확인해야 하기 때문입니다. .

소프트웨어 설치

ML 또는 DL 모델을 학습시키려는 경우 Windows가 아닌 Ubuntu를 설치하는 것이 좋습니다. 작업 중인 프로젝트의 종류에 따라 Python, R 및 Tensorflow 및 Scikit과 같은 다양한 모듈을 설치해야 일상 업무에 도움이 됩니다.

ML/DL용 클라우드 서비스

ML/DL 모델을 작업하는 동안 모델을 훈련하거나 사용할 알고리즘을 결정하려면 많은 데이터가 필요합니다. JobsPikr, DataStock 및 Google Dataset Search는 유용할 수 있는 훌륭한 클라우드 기반 서비스입니다. 웹 데이터에서 모델을 교육하려는 경우 PromptCloud와 같은 DaaS 제공업체를 이용할 수도 있습니다.

결론

마지막 진술로, 비용 상쇄가 단점보다 훨씬 큽니다. 유지 관리 계약이 있는 여러 AI 워크스테이션이 필요한 대기업이 아닌 한 자체 AI 워크스테이션을 구축해야 합니다. 자체 워크스테이션을 구축하고 유지 관리하면 비즈니스의 다른 곳에서 사용할 수 있는 막대한 비용을 절약할 수 있을 뿐만 아니라 사용하는 하드웨어에 더 가까이 다가갈 수 있으므로 ML 또는 DL 알고리즘이 GPU를 사용하여 GPU를 사용하는 방법을 더 많이 이해할 수 있습니다. 더 빠르게 실행하고 전체적인 이해를 얻습니다.