Amazon Web Services, Inc. (AWS) เป็นบริษัทในเครือ Amazon.com, Inc. (NASDAQ: AMZN) และ NVIDIA (NASDAQ: NVDA) ได้ประกาศการขยายความร่วมมือเชิงกลยุทธ์เพื่อมอบระบบโครงสร้างพื้นฐาน ซอฟต์แวร์ และบริการในการขับเคลื่อนนวัตกรรมปัญญาประดิษฐ์ (AI) ของลูกค้า โดยการผสมผสานเทคโนโลยี NVIDIA และ AWS ซึ่งได้นำระบบมัลติโหนดใหม่ล่าสุดของ NVIDIA ที่มี GPU, CPU และซอฟต์แวร์ AI รวมถึงระบบการจำลองเสมือนและการรักษาความปลอดภัยขั้นสูงของ AWS Nitro System การเชื่อมต่อระหว่าง Elastic Fabric Adapter (EFA) และ Ultra Cluster ความสามารถในการปรับขนาด เพื่อการเทรนนิ่งพื้นฐานและการสร้างแอปพลิเคชัน Generative AI จากการขยายการทำงานร่วมกันครั้งนี้เป็นการขับเคลื่อนยุค Generative AI เพื่อตอบโจทย์การเพิ่มประสิทธิภาพและการประมวลผลของทุกอุตสาหกรรม สู่การพัฒนาเทคโนโลยีที่ล้ำสมัยให้กับผู้เริ่มใช้การเรียนรู้ของเครื่อง (ML)
“AWS และ NVIDIA มีความร่วมมือกันมากว่า 13 ปี โดยเริ่มจากอินสแตนซ์คลาวด์ GPU ตัวแรกของโลก วันนี้ เรานำเสนอโซลูชัน NVIDIA GPU ที่หลากหลายที่สุดสำหรับเวิร์คโหลด รวมถึงกราฟิก เกม การประมวลผลประสิทธิภาพสูง การเรียนรู้ของเครื่อง และ Generative AI ในปัจจุบัน นอกจากนี้เรายังคงสร้างสรรค์นวัตกรรมร่วมกับ NVIDIA ต่อไปเพื่อทำให้ AWS เป็นสถานที่ที่ดีที่สุดในการรัน GPU โดยผสมผสาน NVIDIA Grace Hopper Superchips รุ่นถัดไปเข้ากับเครือข่ายที่ทรงพลัง EFA ของ AWS, การทำคลัสเตอร์แบบไฮเปอร์สเกลของ EC2 UltraClusters และความสามารถด้านการจำลองเสมือนขั้นสูงของ Nitro” มิตเตอร์ อดัม เซลิปสกี้ (Mr.Adam Selipsky) ซีอีโอ AWS กล่าว
“สำหรับ Generative AI มีบทบาทในการเปลี่ยนแปลงเวิร์คโหลดบนคลาวด์ และนำการประมวลผลที่เร่งความเร็วมาเป็นรากฐานของการสร้างเนื้อหาที่หลากหลาย การขับเคลื่อนโดยภารกิจร่วมกันในการส่งมอบ Generative AI ที่ล้ำสมัยที่คุ้มค่าให้กับลูกค้าทุกคน NVIDIA และ AWS กำลังทำงานร่วมกันทั่วทั้งสแต็กการประมวลผลทั้งหมด ครอบคลุมโครงสร้างพื้นฐาน AI ไลบรารีการเร่งความเร็ว โมเดลพื้นฐาน ไปจนถึงบริการ Generative AI” มิตเตอร์ เจนเซ่น ฮวง (Mr.Jensen Huang) ผู้ก่อตั้งและซีอีโอของ NVIDIA
อินสแตนซ์ Amazon EC2 ใหม่ผสมผสานความล้ำสมัยจาก NVIDIA และ AWS
AWS จะเป็นผู้ให้บริการระบบคลาวด์รายแรกที่นำเสนอ NVIDIA GH200 Grace Hopper Superchips พร้อมเทคโนโลยี NVLink แบบหลายโหนด GH200 Superchip แต่ละตัวจะรวม Grace CPU สถาปัตยกรรม Arm เข้ากับ GPU สถาปัตยกรรม NVIDIA Hopper™ บนโมดูลเดียวกัน อินสแตนซ์ Amazon EC2 เดี่ยวที่มี GH200 NVL32 สามารถให้หน่วยความจำที่ใช้ร่วมกันได้สูงสุดถึง 20 TB เพื่อขับเคลื่อนเวิร์คโหลดระดับเทราไบต์
อินสแตนซ์เหล่านี้จะใช้ประโยชน์จากการเชื่อมต่อระหว่าง Elastic Fabric Adapter (EFA) รุ่นที่สามของ AWS โดยให้ความเร็วสูงสุด 400 Gbps ต่อ Superchip เครือข่ายที่มีความหน่วงต่ำ, แบนด์วิดธ์สูง ทำให้ลูกค้าสามารถปรับขนาดเป็น GH200 Superchips หลายพันตัวใน EC2 UltraClusters
อินสแตนซ์ AWS ที่มี GH200 NVL32 จะช่วยให้ลูกค้าสามารถเข้าถึงประสิทธิภาพระดับซูเปอร์คอมพิวเตอร์ได้ตามความต้องการ ซึ่งเป็นสิ่งสำคัญสำหรับ AI/ML ขนาดใหญ่ ซึ่งเวิร์คโหลดเหล่านั้นจำเป็นต้องกระจายไปยังหลายโหนด ไม่ว่าจะเป็นเวิร์คโหลด Generative AI ที่ซับซ้อน ซึ่งครอบคลุมถึงโมเดลขั้นพื้นฐาน, ระบบผู้แนะนำ และ ฐานข้อมูลเวกเตอร์
อินสแตนซ์ EC2 ที่ขับเคลื่อนด้วย NVIDIA GH200 จะมีหน่วยความจำ HBM3e ขนาด 4.5 TB ซึ่งเพิ่มขึ้น 7.2 เท่าเมื่อเทียบกับอินสแตนซ์ EC2 P5d ที่ขับเคลื่อนด้วย H100 รุ่นปัจจุบัน ช่วยให้ลูกค้าเรียกใช้โมเดลที่ใหญ่ขึ้นได้ ในขณะเดียวกันก็ปรับปรุงประสิทธิภาพการฝึกอบรมไปด้วย นอกจากนี้ การเชื่อมต่อระหว่างหน่วยความจำระหว่าง CPU กับ GPU ยังให้แบนด์วิดท์ที่สูงกว่า PCIe ถึง 7 เท่า ช่วยให้สามารถสื่อสารระหว่างชิปกับชิปที่ขยายหน่วยความจำทั้งหมดที่มีสำหรับแอปพลิเคชัน
อินสแตนซ์ AWS ที่มี GH200 NVL32 จะเป็นโครงสร้างพื้นฐาน AI รุ่นแรกบน AWS ที่มีการระบายความร้อนด้วยของเหลว เพื่อช่วยให้แน่ใจว่าชั้นวางเซิร์ฟเวอร์ที่อัดแน่นสามารถทำงานได้อย่างมีประสิทธิภาพสูงสุด
อินสแตนซ์ EC2 ที่มี GH200 NVL32 ยังจะได้รับประโยชน์จาก AWS Nitro System ซึ่งเป็นแพลตฟอร์มพื้นฐานสำหรับอินสแตนซ์ EC2 รุ่นถัดไป Nitro System จะนำ I/O สำหรับฟังก์ชันต่าง ๆ จากโฮสต์ CPU/GPU ไปยังฮาร์ดแวร์เฉพาะเพื่อมอบประสิทธิภาพที่สม่ำเสมอยิ่งขึ้น ในขณะที่การรักษาความปลอดภัยที่ได้รับการปรับปรุงจะปกป้องรหัสและข้อมูลของลูกค้าระหว่างการประมวลผล
AWS เป็นเจ้าแรกในการโฮสต์ NVIDIA DGX Cloud ที่ขับเคลื่อนโดย Grace Hopper
AWS จะร่วมมือกับ NVIDIA เพื่อโฮสต์ NVIDIA DGX Cloud ที่ขับเคลื่อนโดยโครงสร้างพื้นฐาน GH200 NVL32 NVLink, NVIDIA DGX Cloud เป็นบริการซูเปอร์คอมพิวเตอร์ AI ที่ช่วยให้องค์กรต่าง ๆ เข้าถึงซูเปอร์คอมพิวเตอร์แบบหลายโหนดได้อย่างรวดเร็ว เพื่อฝึกอบรม LLM ที่ซับซ้อนที่สุดและโมเดล Generative AI พร้อมการผสานรวม NVIDIA AI Enterprise ซอฟต์แวร์และการเข้าถึงผู้เชี่ยวชาญ NVIDIA AI โดยตรง
ซูเปอร์คอมพิวเตอร์ Project Ceiba เพื่อเพิ่มประสิทธิภาพการพัฒนา AI ของ NVIDIA
ซูเปอร์คอมพิวเตอร์ Project Ceiba ที่ AWS และ NVIDIA กำลังสร้างจะถูกรวมเข้ากับบริการของ AWS เช่น เครือข่ายที่เข้ารหัสของ Amazon Virtual Private Cloud (VPC) และพื้นที่จัดเก็บบล็อกประสิทธิภาพสูงของ Amazon Elastic Block Store ทำให้ NVIDIA สามารถเข้าถึงชุดความสามารถ AWS ที่ครอบคลุม
NVIDIA จะใช้ซูเปอร์คอมพิวเตอร์เพื่อการวิจัยและพัฒนาเพื่อพัฒนา AI สำหรับ LLM, กราฟิกและการจำลอง, ชีววิทยาดิจิทัล, หุ่นยนต์, รถยนต์ไร้คนขับ, การทำนายสภาพอากาศ Earth-2 และอื่น ๆ อีกมากมาย
NVIDIA และ AWS Supercharge Generative AI, HPC, การออกแบบและการจำลอง
เพื่อขับเคลื่อนการพัฒนา การฝึกอบรม และการอนุมาน LLM ที่ใหญ่ที่สุด อินสแตนซ์ AWS P5e จะมี H200 GPU ล่าสุดของ NVIDIA ที่มีหน่วยความจำ HBM3e GPU ขนาด 141 GB ซึ่งใหญ่กว่า 1.8 เท่าและเร็วกว่า H100 GPU 1.4 เท่า หน่วยความจำของ GPU ที่เพิ่มขึ้นนี้ พร้อมด้วยเครือข่าย EFA สูงสุด 3,200 Gbps ที่เปิดใช้งานโดย AWS Nitro System จะช่วยให้ลูกค้าสามารถสร้าง ฝึกอบรม และปรับใช้โมเดลที่ล้ำสมัยบน AWS ต่อไปได้
เพื่อมอบโซลูชันที่คุ้มค่าและประหยัดพลังงานสำหรับปริมาณงานวิดีโอ AI และกราฟิก AWS ได้ประกาศอินสแตนซ์ Amazon EC2 G6e ใหม่ที่มี NVIDIA L40S GPU และอินสแตนซ์ G6 ที่ขับเคลื่อนโดย L4 GPU ข้อเสนอใหม่นี้สามารถช่วยให้สตาร์ทอัพ องค์กร และนักวิจัยสามารถตอบสนองความต้องการด้าน AI และกราฟิกที่มีความเที่ยงตรงสูงได้
อินสแตนซ์ G6e ได้รับการสร้างขึ้นเพื่อรองรับปริมาณงานที่ซับซ้อน เช่น AI ทั่วไปและแอปพลิเคชันแฝดดิจิทัล ด้วยการใช้ NVIDIA Omniverse การจำลอง 3 มิติที่สมจริงด้วยแสงสามารถพัฒนา ปรับบริบท และปรับปรุงได้โดยใช้ข้อมูลแบบเรียลไทม์จากบริการต่างๆ เช่น AWS IoT TwinMaker แชทบอทอัจฉริยะ ผู้ช่วย การค้นหา และการสรุป Amazon Robotics และ Amazon Fulfillment Centers จะสามารถผสานรวม Digital Twins ที่สร้างด้วย NVIDIA Omniverse และ AWS IoT TwinMaker เพื่อเพิ่มประสิทธิภาพการออกแบบและการไหลของคลังสินค้า ฝึกอบรมผู้ช่วยหุ่นยนต์ที่ชาญฉลาดมากขึ้น และปรับปรุงการส่งมอบให้กับลูกค้า
L40S GPU มอบประสิทธิภาพ FP8 สูงถึง 1.45 Petaflops และมีคอร์ Ray Tracing ที่ให้ประสิทธิภาพ Ray Tracing สูงถึง 209 Teraflops, L4 GPU ที่มีอยู่ในอินสแตนซ์ G6 จะมอบโซลูชันราคาประหยัดและประหยัดพลังงานสำหรับการปรับใช้โมเดล AI สำหรับการประมวลผลภาษาธรรมชาติ, การแปลภาษา, การวิเคราะห์วิดีโอและรูปภาพ, AI รู้จำคำพูด และการปรับเปลี่ยนในแบบของคุณ L40S GPU ยังเร่งเวิร์คโหลดกราฟิก เช่น การสร้างและการเรนเดอร์กราฟิกคุณภาพระดับภาพยนตร์แบบเรียลไทม์ และการสตรีมเกม ทั้งสามอินสแตนซ์จะพร้อมใช้งานในปี 2024
ซอฟต์แวร์ NVIDIA บน AWS ส่งเสริมการพัฒนา Generative AI
นอกจากนี้ NVIDIA ยังได้ประกาศซอฟต์แวร์บน AWS เพื่อส่งเสริมการพัฒนา AI เชิงสร้างสรรค์ NVIDIA NeMo™ Retriever microservice นำเสนอเครื่องมือใหม่เพื่อสร้างแชทบอทและเครื่องมือสรุปที่มีความแม่นยำสูงโดยใช้การดึงความหมายแบบเร่ง NVIDIA BioNeMo™ มีอยู่ใน Amazon SageMaker ในขณะนี้และที่กำลังมาถึง AWS บน NVIDIA DGX Cloud ช่วยให้บริษัทยาเร่งความเร็วในการค้นหายาโดยทำให้การฝึกอบรมโมเดลโดยใช้ข้อมูลของตนเองง่ายขึ้นและเร็วขึ้น
ซอฟต์แวร์ NVIDIA บน AWS ช่วยให้ Amazon นำนวัตกรรมใหม่ ๆ มาสู่บริการและการดำเนินงานของตน AWS ใช้เฟรมเวิร์ก NVIDIA NeMo เพื่อฝึกอบรม Amazon Titan LLM รุ่นถัดไปบางรุ่น, Amazon Robotics ได้เริ่มใช้ประโยชน์จาก NVIDIA Omniverse Isaac แล้ว เพื่อสร้างแฝดดิจิทัลสำหรับการทำงานอัตโนมัติ เพิ่มประสิทธิภาพ และวางแผนคลังสินค้าอัตโนมัติในสภาพแวดล้อมเสมือนจริง ก่อนที่จะปรับใช้ในโลกแห่งความเป็นจริง