Cara membangun workstation pembelajaran mesin/pembelajaran mendalam pada tahun 2019 – PromptCloud
Diterbitkan: 2019-03-08 Di dunia yang sedang diambil alih oleh pembelajaran mesin dan algoritma pembelajaran mendalam, Anda memang membutuhkan mesin yang lebih cepat untuk mengolah data yang sangat besar juga. Sementara sebagian besar "insinyur perangkat lunak" lolos dengan menggunakan laptop, jika Anda ingin membangun kemampuan AI internal Anda, Anda harus memiliki workstation khusus.
Membuatnya dibuat untuk Anda oleh penyedia layanan mungkin akan jauh lebih mahal daripada merakitnya sendiri, dan itulah sebabnya kami memutuskan untuk mendalami modus operandi untuk membangun workstation ML/DL pada tahun 2019.
Apa yang harus dipegang binatang itu
Kami menyebut workstation kami "the beast" karena kemampuan komputasinya yang luar biasa. Berikut adalah konfigurasinya.
GPU- 4 X NVIDIA Tesla V100 Volta GPU Accelerator 32GB Kartu Grafis
RAM- 4 X Supermicro – Memori DDR4-2666 128 GB Terdaftar
Prosesor- Intel Xeon E5-2698 v4 2.2 GHz dengan turbo-boost 3.60 GHz (20-Core dan 50 Mb Smart Cache)
Unit Pendingin GPU- Pendingin VGA Accelero Xtreme+ II ARCTIC
Catu Daya- CORSAIR AX1600i, 1600 Watt, 80+ Titanium Bersertifikat, Modular Penuh – Catu Daya Digital
Motherboard- Supermicro – X10SRA ATX LGA2011-3 Motherboard
Pendingin CPU- ASUS ROG Ryujin 360 RGB AIO Liquid CPU Cooler Radiator 360mm (Tiga Kipas Noctua iPPC PWM 120mm 4-pin)
Kabinet- Thermaltake Level 20 ATX Full Tower Case
Memori- Intel SSD DC P4510 SERIES (4.0TB, 2.5in PCIe 3.1 x4, 3D2, TLC)
Keputusan saat memilih perangkat keras
Beberapa hal dipertimbangkan saat memilih konfigurasi perangkat keras dari sistem ini. Kita akan membahasnya, satu per satu.
GPU Mari kita bicara tentang unit yang paling penting dari sistem dan mengapa kami memilihnya. NVIDIA Tesla V100 adalah GPU pusat data terbaru dan tercanggih yang pernah dibuat oleh NVIDIA. Stik 32 GB-nya membantu ilmuwan data dan insinyur ML menghabiskan lebih sedikit waktu pada setiap iterasi perubahan model sehingga mereka dapat lebih memfokuskan waktu untuk mengubah model dan menjalankannya lagi untuk membuat terobosan yang lebih baik dalam AI. Jika Anda tergila-gila dengan lembar spesifikasi, izinkan saya memberi tahu Anda, yang satu ini hadir dengan 640 inti tensor yang menghasilkan kinerja pembelajaran mendalam hingga 125 teraflops yang sangat besar. Perlu juga dicatat bahwa konfigurasi GPU yang kami rekomendasikan dari 4 V100 di SLI juga digunakan oleh workstation kustom NVIDIA sendiri yang disebut DGX STATION.
CPU Kami memilih satu model berbasis CPU untuk sistem kami karena komputasi kami sebagian besar akan berjalan di GPU itu sendiri, dan prosesor Intel Xeon 20 inti dengan 40 utas sudah cukup untuk komputasi apa pun yang mungkin membutuhkan banyak CPU. Model CPU ganda tidak meningkatkan kinerja tetapi hanya menangani tugas yang membutuhkan lebih banyak inti pada saat yang bersamaan. Jika Anda memang membutuhkan pengaturan CPU ganda, Anda disarankan untuk membuat dua stasiun kerja saja. Beban kerja tidak selalu berskala seperti yang diharapkan dengan CPU ganda, dan selalu lebih baik menggunakan satu dengan inti yang lebih tinggi sebagai gantinya.
RAM Karena banyak tugas berbasis ML/DL ada pada gambar atau video, penting untuk memiliki memori yang cukup untuk memuat kumpulan data yang begitu besar. Itulah alasan kami menggunakan konfigurasi tertinggi 128GB X 4. Bergantung pada kebutuhan Anda dan jenis kumpulan data yang akan Anda tangani, Anda juga dapat menggunakan konfigurasi 128GB, atau 256GB. Anda juga dapat mengosongkan beberapa slot memori karena peningkatan gradasi RAM sederhana dan hemat biaya.

Catu Daya Sementara saya merekomendasikan Corsair Ax1600i, Anda sebenarnya dapat menggunakan unit catu daya apa pun yang menghasilkan daya setidaknya 1500W karena binatang buas dari workstation ini haus daya dan membutuhkan 1500W pada puncaknya.
Motherboard Motherboard telah diputuskan setelah mengingat dukungannya untuk-
a) Prosesor Intel Xeon.
b) Jumlah RAM DDR4 yang tinggi.
c) CPU Tesla V100 dalam SLI.
Memori- Lewatlah sudah hari-hari hard disk, dan SSD adalah bentuk memori baru. Karenanya kami memutuskan untuk menggunakan SSD Intel terbaik dengan penyimpanan 4Gb. Unit kami mendukung ekspansi yang mudah sehingga Anda dapat menambahkan lebih banyak modul memori sesuai kebutuhan.
Unit pendingin dan kabinet- Meskipun tampaknya tidak penting, menjalankan mesin 1500W memiliki masalah tersendiri, dan Anda harus memasang unit pendingin secara terpisah untuk GPU dan CPU agar selalu berada pada suhu optimal. Jika Anda melihat kenaikan suhu, Anda bisa mendapatkan unit pendingin yang lebih baik. Kasing dipilih karena cukup besar untuk menampung begitu banyak komponen dan Anda dapat menggunakan kasing yang lebih mewah asalkan cukup besar untuk komponen dan set 4GPU SLI.
Keuntungan dan kerugian
Selalu ada dua sisi mata uang yang sama dan membangun stasiun kerja Anda sendiri untuk mengerjakan proyek AI juga memiliki pasang surutnya sendiri.
Yang baik
Akan lebih murah jika Anda membeli suku cadang secara terpisah dan merakitnya sendiri. Membeli workstation yang dibuat khusus oleh penyedia layanan akan menelan biaya antara 2 hingga 3 kali lebih tinggi daripada jika Anda merakitnya sendiri.
Saat menggunakan yang dibuat khusus, Anda harus menyerah pada beberapa batasan perangkat lunak dan perangkat keras, sedangkan ketika Anda menyusunnya sendiri, Anda benar-benar bebas untuk membangunnya sesuka Anda.
Ketika datang ke sebuah workstation, selalu ada kemungkinan up-gradasi. Jika Anda membuatnya untuk Anda, Anda akan membayar mahal setiap kali Anda membutuhkan perubahan atau modifikasi.
Keburukan
Jika terjadi kesalahan secara tiba-tiba, Anda harus mencari tahu bagian mana yang rusak dan memperbaikinya, atau menggantinya, tergantung pada detail garansi. Disarankan agar Anda selalu memiliki salinan cadangan data yang disimpan di luar lokasi jika terjadi malfungsi atau kecelakaan bagian apa pun.
Memiliki stasiun kerja AI berbiaya tinggi di rumah berarti perawatan rutin, dan itu adalah sesuatu yang harus Anda lakukan sendiri..
Semua pembaruan perangkat lunak dan perangkat keras harus dilakukan oleh tim Anda atau Anda harus menyewa seorang profesional saat diperlukan.
Perakitan Perangkat Keras
Kecuali Anda memiliki seseorang dengan pengalaman masa lalu, ada baiknya untuk mempekerjakan seseorang untuk tugas itu, karena menyatukan semuanya akan membutuhkan kabel tambahan, pasta termal, dan beberapa peretasan juga untuk memastikan semuanya bekerja dengan baik dan ada pembuangan panas yang tepat. .
Instalasi perangkat lunak
Jika Anda akan melatih model ML atau DL, sangat disarankan agar Anda menginstal Ubuntu dan bukan Windows. Bergantung pada jenis proyek yang sedang Anda kerjakan, Anda juga perlu menginstal Python, R dan berbagai modul seperti Tensorflow dan Scikit belajar untuk membantu Anda dalam pekerjaan sehari-hari.
Layanan Cloud untuk ML/DL
Saat Anda mengerjakan model ML/DL, Anda pasti akan membutuhkan banyak data untuk melatih model atau memutuskan algoritme mana yang akan digunakan. JobsPikr, DataStock, dan Google Dataset Search, adalah beberapa layanan berbasis cloud hebat yang mungkin berguna. Jika Anda ingin melatih model Anda pada data web, Anda bahkan dapat menggunakan penyedia DaaS seperti PromptCloud.
Kesimpulan
Sebagai pernyataan terakhir, saya akan mengatakan bahwa biaya offset jauh lebih besar daripada kerugiannya dan kecuali Anda adalah perusahaan besar yang membutuhkan banyak stasiun kerja AI dengan perjanjian pemeliharaan, Anda harus membangun stasiun kerja AI Anda sendiri. Membangun stasiun kerja Anda sendiri dan memeliharanya tidak hanya akan menghemat sejumlah besar uang yang dapat Anda gunakan di tempat lain dalam bisnis Anda, tetapi bahkan membawa Anda lebih dekat ke perangkat keras yang Anda gunakan sehingga Anda lebih memahami bagaimana algoritme ML atau DL menggunakan GPU untuk berjalan lebih cepat dan mendapatkan pemahaman holistik.
