2019'da bir makine öğrenimi/derin öğrenme iş istasyonu nasıl oluşturulur – PromptCloud
Yayınlanan: 2019-03-08 Makine öğrenimi ve derin öğrenme algoritmaları tarafından ele geçirilen bir dünyada, devasa verileri parçalamak için daha hızlı makinelere de ihtiyacınız var. Çoğu "yazılım mühendisi" bir dizüstü bilgisayar kullanmaktan kurtulsa da, kurum içi AI yeteneklerinizi geliştirmek istemeniz durumunda, özel bir iş istasyonunuz olması şarttır.
Bir servis sağlayıcı tarafından sizin için inşa edilmesi, kendiniz bir tane kurmaktan çok daha maliyetli olabilir ve bu nedenle 2019'da bir ML/DL iş istasyonu oluşturmak için çalışma şeklini derinlemesine incelemeye karar verdik.
Canavarın tutması gerekenler
Muazzam hesaplama yetenekleri nedeniyle iş istasyonumuzu “canavar” olarak adlandırıyoruz. İşte yapılandırma.
GPU- 4 X NVIDIA Tesla V100 Volta GPU Hızlandırıcı 32GB Grafik Kartı
RAM- 4 X Supermicro – 128 GB Kayıtlı DDR4-2666 Bellek
İşlemci- Intel Xeon E5-2698 v4 2.2 GHz, turbo-boost 3.60 GHz (20-Çekirdek ve 50 Mb Akıllı Önbellek)
GPU Soğutma ünitesi- ARCTIC Accelero Xtreme+ II VGA Soğutucu
Güç Kaynağı - CORSAIR AX1600i, 1600 Watt, 80+ Titanyum Sertifikalı, Tam Modüler – Dijital Güç Kaynağı
Anakart- Supermicro – X10SRA ATX LGA2011-3 Anakart
CPU soğutucu - ASUS ROG Ryujin 360 RGB AIO Sıvı CPU Soğutucu 360mm Radyatör (Üç 120mm 4-pin Noctua iPPC PWM Fanı)
Kabin - Thermaltake Level 20 ATX Full Tower Kasa
Bellek - Intel SSD DC P4510 SERİSİ (4,0 TB, 2,5 inç PCIe 3.1 x4, 3D2, TLC)
Donanım seçerken kararlar
Bu sistemin donanım konfigürasyonu seçilirken birkaç şey dikkate alındı. Bunları tek tek tartışacağız.
GPU Sistemin en önemli biriminden ve neden seçtiğimizden bahsedelim. NVIDIA Tesla V100, NVIDIA tarafından şimdiye kadar üretilmiş en yeni ve en gelişmiş veri merkezi GPU'dur. 32 GB'lık çubuğu, veri bilimcilerin ve makine öğrenimi mühendislerinin, yapay zekada daha iyi atılımlar yapmak için modeli değiştirmeye ve yeniden çalıştırmaya daha fazla zaman ayırabilmeleri için model değişikliklerinin her yinelemesinde daha az zaman harcamasına yardımcı olur. Teknik özellikler sayfası için deli olmanız durumunda, size söyleyeyim, bu, 125 teraflop'a kadar derin öğrenme performansı sağlayan 640 tensör çekirdeği ile birlikte geliyor. Ayrıca, SLI'de önerilen 4 V100'lük GPU yapılandırmamızın NVIDIA'nın DGX İSTASYONU adı verilen kendi özel iş istasyonu tarafından da kullanıldığına dikkat edilmelidir.
CPU Hesaplamalarımız esas olarak GPU'nun kendisinde çalışacağından sistemimiz için tek bir CPU tabanlı model seçtik ve CPU yoğun olabilecek herhangi bir hesaplama için 40 iş parçacıklı 20 çekirdekli bir Intel Xeon işlemci yeterli. Çift CPU modeli performansı artırmaz, yalnızca aynı anda daha fazla çekirdeğe ihtiyaç duyan görevlerin üstesinden gelir. Çift CPU kurulumuna ihtiyacınız varsa, bunun yerine iki iş istasyonu yapmanız önerilir. İş yükleri her zaman çift CPU'lardan beklenebilecek şekilde ölçeklenmez ve bunun yerine daha yüksek çekirdekli tek bir CPU kullanmak her zaman daha iyidir.
RAM Birçok ML/DL tabanlı görev görüntüler veya videolar üzerinde olduğundan, bu kadar büyük veri kümelerini yüklemek için yeterli belleğe sahip olmak önemlidir. Bu nedenle, mümkün olan en yüksek 128 GB X 4 yapılandırmasını seçtik. İhtiyaçlarınıza ve kullanacağınız veri kümelerinin türüne bağlı olarak, 128 GB veya 256 GB yapılandırma da seçebilirsiniz. RAM yükseltmesi basit ve uygun maliyetli olduğu için birkaç bellek yuvasını da boş bırakabilirsiniz.

Güç Kaynağı Corsair Ax1600i'yi tavsiye etsem de, en az 1500W güç üreten herhangi bir güç kaynağı ünitesiyle gidebilirsiniz, çünkü bu canavar bir iş istasyonu güce aç ve en üst düzeyde 1500W'a ihtiyaç duyar.
Anakart Anakart , aşağıdaki desteği göz önünde bulundurarak karar verilmiştir:
a) Intel Xeon İşlemci.
b) Yüksek miktarda DDR4 RAM.
c) SLI'da Tesla V100 CPU'lar.
Bellek - Sabit disklerin günleri geride kaldı ve SSD, belleğin yeni biçimidir. Bu nedenle, 4Gb depolama alanına sahip en iyi Intel SSD'yi kullanmaya karar verdik. Ünitemiz, ihtiyaç duyduğunuz kadar daha fazla bellek modülü ekleyebilmeniz için kolay genişletmeyi destekler.
Soğutma üniteleri ve kabin - Görünüşte önemsiz olsa da, 1500W'lık bir makineyi çalıştırmanın kendi sorunları vardır ve her zaman optimum sıcaklıklarında olmaları için soğutma ünitelerini hem GPU hem de CPU için ayrı ayrı kurmanız şarttır. Sıcaklık artışları görürseniz, daha da iyi soğutma üniteleri alabilirsiniz. Kasa, bu kadar çok bileşeni alacak kadar büyük olduğu için seçilmiştir ve bileşenler ve 4GPU SLI seti için yeterince büyük olduğu sürece daha şık kasalarla gidebilirsiniz.
Avantajlar ve dezavantajlar
Her zaman aynı madalyonun iki yüzü vardır ve AI projelerinde çalışmak için kendi iş istasyonunuzu oluşturmanın da kendi iniş ve çıkışları vardır.
İyi
Parçaları ayrı ayrı alıp kendi başınıza monte ederseniz nispeten daha az maliyetli olur. Bir servis sağlayıcı tarafından özel olarak oluşturulmuş bir iş istasyonu satın almak, kendiniz bir iş istasyonunu bir araya getirmeye göre 2 ila 3 kat daha pahalıya mal olur.
Özel yapım bir sistemle giderken, bazı yazılım ve donanım kısıtlamalarına boyun eğmeniz gerekirken, tek başınıza bir araya getirirken, onu istediğiniz gibi oluşturmakta tamamen özgürsünüz.
Bir iş istasyonu söz konusu olduğunda, her zaman yükseltme şansı vardır. Sizin için yapılmış bir tane alırsanız, her değişiklik veya modifikasyona ihtiyacınız olduğunda büyük bir bedel ödersiniz.
Kötü
Aniden bir şeyler ters giderse, hangi parçanın arızalı olduğunu bulmanız ve garanti detaylarına bağlı olarak tamir ettirmeniz veya değiştirmeniz gerekir. Herhangi bir parça arızası veya kaza durumunda her zaman saha dışında saklanan verilerin yedek bir kopyasını bulundurmanız önerilir.
Şirket içi yüksek maliyetli bir AI iş istasyonuna sahip olmak, düzenli bakım anlamına gelir ve bu, kendi başınıza üstlenmeniz gereken bir şeydir.
Tüm yazılım ve donanım güncellemelerinin ekibiniz tarafından yapılması gerekecek veya gerektiğinde bir profesyonel kiralamanız gerekecek.
Donanım Montajı
Geçmiş deneyime sahip biri yoksa, bu görev için birini işe almak iyidir, çünkü her şeyi bir araya getirmek ekstra kablolara, termal macuna ve her şeyin iyi çalıştığından ve uygun ısı dağılımı olduğundan emin olmak için ek kablolara ihtiyaç duyacaktır. .
Yazılım kurulumları
ML veya DL modellerini eğitecekseniz, Windows yerine Ubuntu kurmanız şiddetle tavsiye edilir. Ne tür projeler üzerinde çalıştığınıza bağlı olarak, ayrıca Python, R ve Tensorflow ve Scikit gibi farklı modülleri günlük işlerinizde size yardımcı olacak şekilde kurmanız gerekecektir.
ML/DL için Bulut Hizmetleri
ML/DL modelleri üzerinde çalışırken, modelleri eğitmek veya hangi algoritmayı kullanacağınıza karar vermek için kesinlikle çok fazla veriye ihtiyacınız olacak. JobsPikr, DataStock ve Google Dataset Search, kullanışlı olabilecek bazı harika bulut tabanlı hizmetlerdir. Modellerinizi web verileri üzerinde eğitmek istiyorsanız, PromptCloud gibi DaaS sağlayıcılarına bile gidebilirsiniz.
Çözüm
Son bir ifade olarak, maliyet dengelemesinin dezavantajlardan çok daha ağır bastığını söyleyebilirim ve bakım anlaşmaları olan birden fazla AI iş istasyonuna ihtiyaç duyan büyük bir şirket değilseniz, kendi AI iş istasyonunuzu oluşturmalısınız. Kendi iş istasyonunuzu inşa etmek ve bakımını yapmak, yalnızca işletmenizin başka yerlerinde kullanabileceğiniz büyük miktarda para tasarrufu sağlamakla kalmayacak, aynı zamanda ML veya DL algoritmalarının GPU'ları nasıl kullandığını daha iyi anlamanız için sizi kullandığınız donanıma daha da yaklaştıracaktır. daha hızlı koş ve bütünsel bir anlayış kazan.
