วิธีสร้างเวิร์กสเตชันแมชชีนเลิร์นนิง/การเรียนรู้เชิงลึกในปี 2019 – PromptCloud

เผยแพร่แล้ว: 2019-03-08
สารบัญ แสดง
สิ่งที่สัตว์เดรัจฉานควรถือ
การตัดสินใจขณะเลือกฮาร์ดแวร์
ข้อดีข้อเสีย
ดี
แย่
การประกอบฮาร์ดแวร์
การติดตั้งซอฟต์แวร์
บริการคลาวด์สำหรับ ML/DL
บทสรุป

ในโลกที่กำลังถูกครอบงำโดยแมชชีนเลิร์นนิงและอัลกอริธึมการเรียนรู้เชิงลึก คุณจำเป็นต้องใช้เครื่องจักรที่เร็วกว่าเพื่อบีบอัดข้อมูลขนาดใหญ่เช่นกัน แม้ว่า “วิศวกรซอฟต์แวร์” ส่วนใหญ่จะเลิกใช้แล็ปท็อป แต่ในกรณีที่คุณต้องการสร้างความสามารถด้าน AI ในบ้าน จำเป็นต้องมีเวิร์กสเตชันเฉพาะสำหรับคุณ
การทำให้ผู้ให้บริการสร้างขึ้นเพื่อคุณโดยผู้ให้บริการอาจมีราคาแพงกว่าการประกอบด้วยตัวคุณเอง และนั่นคือเหตุผลที่เราตัดสินใจเจาะลึกลงไปในวิธีการดำเนินการสำหรับการสร้างเวิร์กสเตชัน ML/DL ในปี 2019

สิ่งที่สัตว์เดรัจฉานควรถือ

เรากำลังเรียกเวิร์กสเตชันของเราว่า "สัตว์เดรัจฉาน" เนื่องจากความสามารถในการคำนวณมหาศาล นี่คือการกำหนดค่า

GPU- 4 X NVIDIA Tesla V100 Volta GPU Accelerator กราฟิกการ์ด 32GB
RAM- 4 X Supermicro – หน่วยความจำ DDR4-2666 แบบลงทะเบียน 128 GB
โปรเซสเซอร์ - Intel Xeon E5-2698 v4 2.2 GHz พร้อม turbo-boost 3.60 GHz (20-Cores และ 50 Mb Smart Cache)
หน่วยทำความเย็น GPU - ARCTIC Accelero Xtreme+ II VGA Cooler
พาวเวอร์ซัพพลาย- CORSAIR AX1600i, 1600 Watt, 80+ Titanium Certified, Fully Modular – Digital Power Supply
เมนบอร์ด - Supermicro – X10SRA ATX LGA2011-3 เมนบอร์ด
CPU cooler -ASUS ROG Ryujin 360 RGB AIO Liquid CPU Cooler 360 มม. หม้อน้ำ (สาม 120 มม. 4-pin Noctua iPPC PWM พัดลม)
ตู้ - Thermaltake ระดับ 20 ATX Full Tower Case
หน่วย ความจำ - Intel SSD DC P4510 SERIES (4.0TB, 2.5in PCIe 3.1 x4, 3D2, TLC)

การตัดสินใจขณะเลือกฮาร์ดแวร์

มีหลายสิ่งหลายอย่างที่นำมาพิจารณาขณะเลือกการกำหนดค่าฮาร์ดแวร์ของระบบนี้ เราจะหารือกันทีละคน

GPU มาพูดถึงหน่วยที่สำคัญที่สุดของระบบและเหตุผลที่เราเลือกมัน NVIDIA Tesla V100 เป็น GPU ศูนย์ข้อมูลล่าสุดและล้ำหน้าที่สุดเท่าที่ NVIDIA สร้างขึ้น แท่งขนาด 32GB ช่วยให้นักวิทยาศาสตร์ข้อมูลและวิศวกร ML ใช้เวลาน้อยลงในการเปลี่ยนแปลงแบบจำลองแต่ละครั้ง เพื่อให้พวกเขาสามารถมีเวลามากขึ้นในการเปลี่ยนแบบจำลองและเรียกใช้อีกครั้ง เพื่อสร้างความก้าวหน้าใน AI ที่ดีขึ้น ในกรณีที่คุณคลั่งไคล้แผ่นข้อมูลจำเพาะ ให้ฉันบอกคุณว่าอันนี้มาพร้อมกับ 640 tensor cores ที่มอบประสิทธิภาพการเรียนรู้เชิงลึกมากถึง 125 เทราฟลอป นอกจากนี้ ยังมีการใช้ GPU 4 V100 ที่เราแนะนำใน SLI โดยเวิร์กสเตชันแบบกำหนดเองของ NVIDIA ที่เรียกว่า DGX STATION

CPU เราเลือกรุ่นที่ใช้ CPU เดียวสำหรับระบบของเรา เนื่องจากการคำนวณของเราจะทำงานบน GPU เป็นหลัก และตัวประมวลผล Intel Xeon 20 คอร์ที่มี 40 เธรดก็เพียงพอสำหรับการคำนวณใดๆ ที่อาจต้องใช้ CPU สูง รุ่น CPU แบบคู่ไม่ได้เพิ่มประสิทธิภาพ แต่ดูแลเฉพาะงานที่ต้องการคอร์มากขึ้นในเวลาเดียวกัน ในกรณีที่คุณต้องการการตั้งค่า CPU แบบคู่ ขอแนะนำให้สร้างสองเวิร์กสเตชันแทน เวิร์กโหลดไม่ได้ปรับขนาดในแบบที่คาดหวังจาก CPU แบบคู่เสมอไป และควรใช้อันเดียวที่มีคอร์ที่สูงกว่าแทนเสมอ

RAM เนื่องจากงานที่ใช้ ML/DL จำนวนมากอยู่บนรูปภาพหรือวิดีโอ สิ่งสำคัญคือต้องมีหน่วยความจำเพียงพอในการโหลดชุดข้อมูลขนาดใหญ่ดังกล่าว นั่นคือเหตุผลที่เราเลือกใช้การกำหนดค่าสูงสุด 128GB X 4 ที่เป็นไปได้ ทั้งนี้ขึ้นอยู่กับความต้องการของคุณและประเภทของชุดข้อมูลที่คุณจะจัดการ คุณสามารถใช้ขนาด 128GB หรือ 256GB ได้เช่นกัน คุณสามารถเว้นช่องหน่วยความจำว่างไว้ได้เช่นกันเนื่องจากการอัปเกรด RAM ทำได้ง่ายและคุ้มค่า

พาวเวอร์ซัพพลาย ในขณะที่ฉันแนะนำ Corsair Ax1600i คุณสามารถใช้หน่วยจ่ายไฟใด ๆ ที่สร้างพลังงานอย่างน้อย 1500W เนื่องจากสัตว์เดรัจฉานของเวิร์กสเตชันตัวนี้กำลังหิวและต้องการ 1500W ที่จุดสูงสุด

มาเธอร์ บอร์ด มาเธอร์บอร์ดได้รับการตัดสินใจหลังจากคำนึงถึงการสนับสนุนสำหรับ-
ก) โปรเซสเซอร์ Intel Xeon
b) RAM DDR4 จำนวนมาก
c) ซีพียู Tesla V100 ใน SLI

หน่วย ความจำ - ยุคสมัยของฮาร์ดดิสก์หมดไป และ SSD คือหน่วยความจำรูปแบบใหม่ ดังนั้นเราจึงตัดสินใจเลือกใช้ Intel SSD ที่ดีที่สุดพร้อมพื้นที่เก็บข้อมูล 4Gb หน่วยของเรารองรับการขยายที่ง่ายดาย ดังนั้นคุณสามารถเพิ่มโมดูลหน่วยความจำเพิ่มเติมได้ตามต้องการ

หน่วยทำความเย็นและตู้- แม้ว่าจะดูเหมือนไม่สำคัญ แต่การใช้งานเครื่อง 1500W มีปัญหาของตัวเอง และจำเป็นต้องติดตั้งหน่วยทำความเย็นแยกต่างหากสำหรับทั้ง GPU และ CPU เพื่อให้อยู่ในอุณหภูมิที่เหมาะสมเสมอ ในกรณีที่คุณเห็นอุณหภูมิที่เพิ่มสูงขึ้น คุณจะได้รับหน่วยทำความเย็นที่ดียิ่งขึ้นไปอีก เคสนี้ได้รับการคัดเลือกเนื่องจากมีขนาดใหญ่พอที่จะใส่ส่วนประกอบได้มากมาย และคุณสามารถใช้เคสที่ใหญ่กว่าได้ ตราบใดที่มันใหญ่พอสำหรับส่วนประกอบและชุด 4GPU SLI

ข้อดีข้อเสีย

เหรียญใบเดียวกันมักมีสองด้านเสมอ และการสร้างเวิร์กสเตชันของคุณเองเพื่อทำงานในโครงการ AI ก็มีขึ้นมีลงเช่นกัน

ดี

มันจะเสียค่าใช้จ่ายน้อยกว่าถ้าคุณซื้อชิ้นส่วนแยกต่างหากและประกอบเอง การซื้อเวิร์กสเตชันที่สร้างขึ้นเองโดยผู้ให้บริการจะมีค่าใช้จ่ายที่สูงกว่า 2 ถึง 3 เท่าเมื่อเทียบกับการประกอบด้วยตัวคุณเอง
เมื่อเลือกใช้ซอฟต์แวร์ที่สร้างขึ้นเอง คุณจะต้องยอมจำนนต่อข้อจำกัดของซอฟต์แวร์และฮาร์ดแวร์บางอย่าง ในขณะที่เมื่อคุณประกอบเข้าด้วยกัน คุณจะสามารถสร้างได้อย่างอิสระตามต้องการ
เมื่อพูดถึงเวิร์กสเตชัน มีโอกาสอัปเกรดอยู่เสมอ หากคุณสร้างมาเพื่อคุณ คุณจะต้องจ่ายแพงทุกครั้งที่คุณต้องการเปลี่ยนแปลงหรือแก้ไข

แย่

ในกรณีที่มีบางอย่างผิดปกติ คุณต้องค้นหาว่าส่วนใดชำรุดและทำการซ่อมแซมหรือเปลี่ยนแปลง ทั้งนี้ขึ้นอยู่กับรายละเอียดการรับประกัน ขอแนะนำว่าคุณควรมีสำเนาสำรองของข้อมูลที่เก็บไว้นอกสถานที่ในกรณีที่ชิ้นส่วนใด ๆ ทำงานผิดปกติหรือเกิดอุบัติเหตุ
การมีเวิร์คสเตชั่น AI ที่มีต้นทุนสูงภายในองค์กรหมายถึงการบำรุงรักษาเป็นประจำ และนั่นคือสิ่งที่คุณจะต้องดำเนินการเอง..
ทีมของคุณจะต้องทำการอัปเดตซอฟต์แวร์และฮาร์ดแวร์ทั้งหมด ไม่เช่นนั้นคุณจะต้องจ้างผู้เชี่ยวชาญเมื่อจำเป็น

การประกอบฮาร์ดแวร์

หากคุณไม่มีผู้ที่มีประสบการณ์มาก่อน เป็นการดีที่จะจ้างคนมาทำงาน เนื่องจากเมื่อประกอบทุกอย่างเข้าด้วยกันจะต้องใช้สายเคเบิลเพิ่มเติม ตัวระบายความร้อน และเคล็ดลับบางอย่างเช่นกันเพื่อให้แน่ใจว่าทุกอย่างทำงานได้ดีและมีการกระจายความร้อนอย่างเหมาะสม .

การติดตั้งซอฟต์แวร์

ในกรณีที่คุณกำลังจะฝึกโมเดล ML หรือ DL ขอแนะนำเป็นอย่างยิ่งให้คุณติดตั้ง Ubuntu ไม่ใช่ Windows คุณจะต้องติดตั้ง Python, R และโมดูลต่างๆ เช่น Tensorflow และ Scikit เพื่อเรียนรู้ที่จะช่วยคุณในการทำงานในแต่ละวัน ทั้งนี้ขึ้นอยู่กับประเภทของโครงการที่คุณกำลังทำงานอยู่

บริการคลาวด์สำหรับ ML/DL

ขณะที่คุณกำลังทำงานกับโมเดล ML/DL คุณจะต้องใช้ข้อมูลจำนวนมากในการฝึกโมเดลหรือตัดสินใจว่าจะใช้อัลกอริทึมใด JobsPikr, DataStock และ Google Dataset Search เป็นบริการบนคลาวด์ที่ยอดเยี่ยมซึ่งอาจมีประโยชน์ ในกรณีที่คุณต้องการฝึกโมเดลของคุณเกี่ยวกับข้อมูลเว็บ คุณยังสามารถเลือกผู้ให้บริการ DaaS เช่น PromptCloud

บทสรุป

ในคำแถลงสุดท้าย ฉันจะบอกว่าการชดเชยต้นทุนมีมากกว่าข้อเสีย และหากคุณไม่ใช่บริษัทขนาดใหญ่ที่ต้องการเวิร์กสเตชัน AI หลายเครื่องพร้อมข้อตกลงการบำรุงรักษา คุณควรสร้างเวิร์กสเตชัน AI ของคุณเอง การสร้างและบำรุงรักษาเวิร์กสเตชันของคุณเองไม่เพียงแต่ช่วยประหยัดเงินจำนวนมหาศาลที่คุณสามารถใช้ที่อื่นในธุรกิจของคุณ แต่ยังนำคุณเข้าใกล้ฮาร์ดแวร์ที่คุณใช้มากขึ้น เพื่อให้คุณเข้าใจมากขึ้นว่าอัลกอริทึม ML หรือ DL ใช้ GPU อย่างไร ทำงานได้เร็วขึ้นและได้รับความเข้าใจแบบองค์รวม