Как создать рабочую станцию для машинного обучения/глубокого обучения в 2019 году – PromptCloud
Опубликовано: 2019-03-08 В мире, который захвачен алгоритмами машинного обучения и глубокого обучения, вам также нужны более быстрые машины для обработки огромных данных. В то время как большинству «инженеров-программистов» сходит с рук использование ноутбука, если вы хотите создать собственные возможности искусственного интеллекта, вам необходимо иметь выделенную рабочую станцию.
Создание его для вас поставщиком услуг может оказаться значительно дороже, чем сборка самостоятельно, и именно поэтому мы решили подробно изучить методы создания рабочей станции ML/DL в 2019 году.
Что должен держать зверь
Мы называем нашу рабочую станцию «зверем» из-за ее огромных вычислительных возможностей. Вот конфигурация.
GPU- 4 X NVIDIA Tesla V100 Volta GPU Accelerator 32 ГБ Видеокарта
RAM — 4 X Supermicro — 128 ГБ зарегистрированной памяти DDR4-2666
Процессор — Intel Xeon E5-2698 v4 2,2 ГГц с турбонаддувом 3,60 ГГц (20 ядер и 50 Мб Smart Cache)
Блок охлаждения графического процессора — ARCTIC Accelero Xtreme+ II VGA Cooler
Блок питания — CORSAIR AX1600i, 1600 Вт, сертификация 80+ Titanium, полностью модульный — цифровой блок питания
Материнская плата — Supermicro — X10SRA ATX LGA2011-3 Материнская плата
Процессорный кулер — ASUS ROG Ryujin 360 RGB AIO Liquid CPU Cooler 360 мм Радиатор (три 120-мм 4-контактных вентилятора Noctua iPPC PWM)
Шкаф-корпус Thermaltake Level 20 ATX Full Tower
Память — твердотельный накопитель Intel DC P4510 SERIES (4,0 ТБ, 2,5 дюйма, PCIe 3.1 x4, 3D2, TLC)
Решения при выборе оборудования
При выборе аппаратной конфигурации этой системы было принято во внимание несколько вещей. Мы обсудим их один за другим.
GPU Давайте поговорим о самой важной единице системы и о том, почему мы выбрали именно ее. NVIDIA Tesla V100 — новейший и самый совершенный графический процессор для центров обработки данных, когда-либо созданный NVIDIA. Флешка на 32 ГБ помогает специалистам по данным и инженерам по машинному обучению тратить меньше времени на каждую итерацию изменений модели, чтобы они могли уделять больше времени изменению модели и ее повторному запуску, чтобы добиться больших прорывов в области ИИ. Если вы без ума от спецификаций, позвольте мне сказать вам, что он поставляется с 640 тензорными ядрами, которые обеспечивают производительность глубокого обучения до 125 терафлопс. Также следует отметить, что рекомендуемая нами конфигурация графических процессоров из 4 V100 в SLI также используется собственной пользовательской рабочей станцией NVIDIA под названием DGX STATION.
ЦП Мы выбрали для нашей системы модель с одним ЦП, поскольку наши вычисления в основном будут выполняться на самом графическом процессоре, а 20-ядерного процессора Intel Xeon с 40 потоками достаточно для любых вычислений, которые могут интенсивно использовать ЦП. Двухпроцессорная модель не повышает производительность, а только выполняет задачи, требующие еще большего количества ядер одновременно. Если вам нужна установка с двумя процессорами, вместо этого рекомендуется создать две рабочие станции. Рабочие нагрузки не всегда масштабируются так, как можно было бы ожидать от двух процессоров, и вместо этого всегда лучше использовать один с более мощными ядрами.
ОЗУ Поскольку многие задачи на основе ML/DL выполняются с изображениями или видео, важно иметь достаточно памяти для загрузки таких огромных наборов данных. Вот почему мы выбрали максимально возможную конфигурацию 128 ГБ X 4. В зависимости от ваших потребностей и типа наборов данных, с которыми вы будете работать, вы также можете выбрать конфигурацию 128 ГБ или 256 ГБ. Вы также можете оставить несколько слотов памяти пустыми, поскольку обновление оперативной памяти является простым и экономичным.

Блок питания Хотя я рекомендую Corsair Ax1600i, на самом деле вы можете использовать любой блок питания, который вырабатывает мощность не менее 1500 Вт, поскольку эта чудовищная рабочая станция прожорлива и потребляет 1500 Вт на пике.
Материнская плата Материнская плата была выбрана с учетом ее поддержки:
а) Процессор Intel Xeon.
б) Большой объем оперативной памяти DDR4.
c) Процессоры Tesla V100 в SLI.
Память . Времена жестких дисков прошли, а SSD — это новая форма памяти. Поэтому мы решили использовать лучший в своем роде твердотельный накопитель Intel с объемом памяти 4 Гб. Наше устройство поддерживает простое расширение, поэтому вы можете добавлять дополнительные модули памяти по мере необходимости.
Охлаждающие блоки и корпус. Несмотря на то, что это кажется неважным, работа машины мощностью 1500 Вт имеет свои проблемы, и необходимо установить охлаждающие блоки отдельно для графического процессора и процессора, чтобы они всегда имели оптимальную температуру. В случае, если вы видите скачки температуры, вы можете получить еще более совершенные охлаждающие устройства. Корпус был выбран потому, что он достаточно большой, чтобы вместить столько компонентов, и вы можете использовать более необычные корпуса, если он достаточно велик для компонентов и набора 4GPU SLI.
Преимущества и недостатки
Всегда есть две стороны одной медали, и создание собственной рабочей станции для работы над проектами ИИ тоже имеет свои взлеты и падения.
Хорошо
Это будет стоить вам сравнительно меньше, если вы купите детали отдельно и соберете их самостоятельно. Покупка изготовленной на заказ рабочей станции у поставщика услуг обойдется в 2–3 раза дороже, чем сборка ее самостоятельно.
При работе со сборкой по индивидуальному заказу вам придется уступить некоторым программным и аппаратным ограничениям, тогда как, когда вы собираете ее самостоятельно, вы совершенно свободны создавать ее по своему усмотрению.
Когда дело доходит до рабочей станции, всегда есть шансы на апгрейд. Если вы получите один построенный для вас, вы будете платить большую цену каждый раз, когда вам нужно изменить или модифицировать.
Плохо
В случае, если что-то вдруг пойдет не так, вы должны выяснить, какая часть неисправна, и отремонтировать или заменить ее, в зависимости от деталей гарантии. Рекомендуется всегда иметь резервную копию данных, хранящихся вне офиса, на случай неисправности какой-либо детали или аварии.
Наличие собственной дорогостоящей рабочей станции ИИ означает регулярное техническое обслуживание, и это то, что вам придется выполнять самостоятельно.
Все обновления программного и аппаратного обеспечения должны выполняться вашей командой или вам нужно будет нанять профессионала, когда это необходимо.
Сборка оборудования
Если у вас нет кого-то с прошлым опытом, хорошо нанять кого-то для этой задачи, так как для сборки потребуются дополнительные кабели, термопаста и некоторые хаки, чтобы убедиться, что все работает хорошо и есть надлежащее рассеивание тепла. .
Установка программного обеспечения
Если вы собираетесь обучать модели ML или DL, настоятельно рекомендуется установить Ubuntu, а не Windows. В зависимости от того, над каким проектом вы работаете, вам также потребуется установить Python, R и различные модули, такие как Tensorflow и Scikit, которые помогут вам в повседневной работе.
Облачные сервисы для ML/DL
Пока вы работаете с моделями ML/DL, вам определенно понадобится много данных для обучения моделей или выбора алгоритма. JobsPikr, DataStock и Google Dataset Search — отличные облачные сервисы, которые могут пригодиться. Если вы хотите обучать свои модели веб-данным, вы можете даже обратиться к поставщикам DaaS, таким как PromptCloud.
Вывод
В заключение я бы сказал, что компенсация затрат намного перевешивает недостатки, и если вы не крупная компания, которой требуется несколько рабочих станций ИИ с соглашениями об обслуживании, вам следует создать собственную рабочую станцию ИИ. Создание собственной рабочей станции и ее обслуживание не только сэкономит вам огромную сумму денег, которую вы сможете использовать в других сферах своего бизнеса, но даже приблизит вас к используемому оборудованию, чтобы вы лучше понимали, как алгоритмы машинного обучения или глубокого обучения используют графические процессоры для бежать быстрее и получить целостное понимание.
