Comment créer un poste de travail d'apprentissage automatique / d'apprentissage en profondeur en 2019 - PromptCloud
Publié: 2019-03-08 Dans un monde dominé par l'apprentissage automatique et les algorithmes d'apprentissage en profondeur, vous avez également besoin de machines plus rapides pour traiter les énormes données. Alors que la plupart des "ingénieurs en logiciel" s'en sortent avec un ordinateur portable, au cas où vous voudriez développer vos capacités d'IA en interne, il est indispensable que vous disposiez d'un poste de travail dédié.
Le faire construire pour vous par un fournisseur de services pourrait s'avérer considérablement plus coûteux que d'en assembler un vous-même, et c'est pourquoi nous avons décidé d'approfondir le mode opératoire de construction d'un poste de travail ML/DL en 2019.
Ce que la bête devrait contenir
Nous appelons notre poste de travail "la bête" en raison de ses immenses capacités de calcul. Voici la configuration.
GPU - 4 X NVIDIA Tesla V100 Volta GPU Accelerator Carte graphique 32 Go
RAM - 4 X Supermicro - 128 Go de mémoire DDR4-2666 enregistrée
Processeur - Intel Xeon E5-2698 v4 2,2 GHz avec turbo-boost 3,60 GHz (20 cœurs et 50 Mo de cache intelligent)
Unité de refroidissement GPU - ARCTIC Accelero Xtreme+ II VGA Cooler
Alimentation - CORSAIR AX1600i, 1600 Watt, certifié 80+ Titanium, entièrement modulaire - Alimentation numérique
Carte mère - Supermicro - Carte mère X10SRA ATX LGA2011-3
Refroidisseur de processeur - ASUS ROG Ryujin 360 RGB AIO Liquid CPU Cooler 360mm Radiator (Trois ventilateurs Noctua iPPC PWM 120mm 4 broches)
Armoire - Boîtier Thermaltake Level 20 ATX Full Tower
Mémoire - Intel SSD DC P4510 SERIES (4,0 To, 2,5 pouces PCIe 3.1 x4, 3D2, TLC)
Décisions lors du choix du matériel
Plusieurs éléments ont été pris en compte lors du choix de la configuration matérielle de ce système. Nous allons les discuter, un par un.
GPU Parlons de l'unité la plus importante du système et pourquoi nous l'avons choisi. NVIDIA Tesla V100 est le GPU de centre de données le plus récent et le plus avancé jamais construit par NVIDIA. Sa clé de 32 Go aide les scientifiques des données et les ingénieurs ML à passer moins de temps sur chaque itération des modifications de modèle afin qu'ils puissent consacrer plus de temps à modifier le modèle et à le réexécuter afin de faire de meilleures percées dans l'IA. Si vous êtes fou de la fiche technique, laissez-moi vous dire que celle-ci est livrée avec 640 cœurs de tenseur qui offrent jusqu'à 125 téraflops de performances d'apprentissage en profondeur. Il convient également de noter que notre configuration GPU recommandée de 4 V100 en SLI est également utilisée par la propre station de travail personnalisée de NVIDIA appelée DGX STATION.
CPU Nous avons choisi un seul modèle basé sur le CPU pour notre système car nos calculs s'exécuteront principalement sur le GPU lui-même, et un processeur Intel Xeon à 20 cœurs avec 40 threads est suffisant pour tout calcul qui pourrait être gourmand en CPU. Un modèle à double CPU n'augmente pas les performances mais ne s'occupe que des tâches qui nécessitent encore plus de cœurs en même temps. Si vous avez besoin d'une configuration à double processeur, il est recommandé de créer deux postes de travail à la place. Les charges de travail n'évoluent pas toujours comme on pourrait s'y attendre avec des processeurs doubles, et il est toujours préférable d'en utiliser un seul avec des cœurs plus élevés à la place.
RAM Étant donné que de nombreuses tâches basées sur ML/DL portent sur des images ou des vidéos, il est important de disposer de suffisamment de mémoire pour charger des ensembles de données aussi volumineux. C'est la raison pour laquelle nous avons opté pour la configuration la plus élevée possible de 128 Go X 4. Selon vos besoins et le type d'ensembles de données que vous gérez, vous pouvez également opter pour une configuration de 128 Go ou de 256 Go. Vous pouvez également laisser quelques emplacements de mémoire vides, car la mise à niveau de la RAM est simple et économique.

Alimentation Bien que je recommande le Corsair Ax1600i, vous pouvez en fait utiliser n'importe quel bloc d'alimentation qui génère au moins 1500 W, car cette bête de poste de travail est gourmande en énergie et a besoin de 1500 W à son apogée.
Carte mère La carte mère a été choisie en gardant à l'esprit son support pour-
a) Processeur Intel Xeon.
b) Une grande quantité de RAM DDR4.
c) Processeurs Tesla V100 en SLI.
Mémoire - L'époque des disques durs est révolue et le SSD est la nouvelle forme de mémoire. C'est pourquoi nous avons décidé d'opter pour le meilleur SSD Intel de la gamme avec 4 Go de stockage. Notre unité prend en charge une extension facile afin que vous puissiez ajouter plus de modules de mémoire selon vos besoins.
Unités de refroidissement et armoire - Bien qu'apparemment sans importance, faire fonctionner une machine de 1500 W a ses propres problèmes, et il est indispensable que vous installiez des unités de refroidissement séparément pour le GPU et le CPU afin qu'ils soient toujours à leur température optimale. Si vous constatez des hausses de température, vous pouvez obtenir des unités de refroidissement encore meilleures. Le boîtier a été choisi car il est suffisamment grand pour contenir autant de composants et vous pouvez utiliser des boîtiers plus sophistiqués tant qu'il est suffisamment grand pour les composants et l'ensemble 4GPU SLI.
Avantages et inconvénients
Il y a toujours les deux faces d'une même médaille et la construction de votre propre poste de travail pour travailler sur des projets d'IA a aussi ses hauts et ses bas.
Le bon
Cela vous coûterait relativement moins cher si vous achetiez les pièces séparément et que vous les montiez vous-même. L'achat d'un poste de travail sur mesure par un fournisseur de services coûterait entre 2 et 3 fois plus cher que d'en assembler un vous-même.
Lorsque vous optez pour un modèle personnalisé, vous devez céder à certaines restrictions logicielles et matérielles, alors que lorsque vous en assemblez un par vous-même, vous êtes entièrement libre de le construire comme vous le souhaitez.
Lorsqu'il s'agit d'un poste de travail, il y a toujours des possibilités de mise à niveau. Si vous en faites construire un pour vous, vous paierez un prix élevé chaque fois que vous aurez besoin d'un changement ou d'une modification.
Le mauvais
En cas de problème soudain, vous devez déterminer quelle pièce est défectueuse et la faire réparer ou la changer, en fonction des détails de la garantie. Il est recommandé de toujours disposer d'une copie de sauvegarde des données stockées hors site en cas de dysfonctionnement ou d'accident d'une pièce.
Avoir un poste de travail d'IA à coût élevé en interne signifie un entretien régulier, et c'est quelque chose que vous devrez entreprendre vous-même.
Toutes les mises à jour logicielles et matérielles devront être effectuées par votre équipe ou vous devrez engager un professionnel lorsque vous en aurez besoin.
Assemblage du matériel
À moins que vous n'ayez quelqu'un avec une expérience passée, il est bon d'embaucher quelqu'un pour la tâche, car tout assembler nécessitera des câbles supplémentaires, de la pâte thermique et quelques hacks afin de s'assurer que tout fonctionne bien et qu'il y a une bonne dissipation de la chaleur. .
Installations de logiciels
Si vous comptez former des modèles ML ou DL, il est fortement recommandé d'installer Ubuntu et non Windows. Selon le type de projets sur lesquels vous travaillez, vous devrez également installer Python, R et différents modules tels que Tensorflow et Scikit pour vous aider dans votre travail quotidien.
Services cloud pour ML/DL
Pendant que vous travaillez sur des modèles ML/DL, vous aurez certainement besoin de beaucoup de données pour former des modèles ou décider de l'algorithme à utiliser. JobsPikr, DataStock et Google Dataset Search sont d'excellents services basés sur le cloud qui pourraient s'avérer utiles. Si vous souhaitez former vos modèles sur les données Web, vous pouvez même opter pour des fournisseurs DaaS comme PromptCloud.
Conclusion
En guise de conclusion, je dirais que la compensation des coûts dépasse de loin les inconvénients et, à moins que vous ne soyez une grande entreprise ayant besoin de plusieurs postes de travail IA avec des accords de maintenance, vous devez créer votre propre poste de travail IA. Construire votre propre poste de travail et le maintenir vous fera non seulement économiser une énorme somme d'argent que vous pourrez utiliser ailleurs dans votre entreprise, mais vous rapprochera même du matériel que vous utilisez afin que vous compreniez mieux comment les algorithmes ML ou DL utilisent les GPU pour courir plus vite et acquérir une compréhension holistique.
