NVIDIA พัฒนา Agentic AI ด้วยโมเดล Llama และ Cosmos Nemotron

NVIDIA ได้ประกาศความก้าวหน้าหลายประการในด้าน AI ในงาน CES 2025 โดยเปิดเผยการพัฒนาใหม่ที่ผสานความสำเร็จก่อนหน้านี้ของบริษัทในการสร้างข้อมูลสังเคราะห์เข้ากับการมุ่งเน้นไปที่การตัดสินใจโดยอัตโนมัติ

การเปิดตัวใหม่ประกอบด้วย แพลตฟอร์ม Cosmos World Foundation Model (WFM)—ชุดเครื่องมือที่ครอบคลุมสำหรับการสร้างวิดีโอตามฟิสิกส์และภาพถ่ายจริง สถานการณ์ต่างๆ—และ Llama Nemotron บวกกับ ตระกูล Cosmos Nemotron ซึ่งเปิดใช้ภาษา การมองเห็น และ AI เพื่อการตัดสินใจในภาคส่วนต่างๆ เช่น หุ่นยนต์ การดูแลสุขภาพ และยานพาหนะอัตโนมัติ

ที่เกี่ยวข้อง: Nvidia เผย RTX 50-Series Blackwell GPU พร้อม DLSS 4 และพลังสองเท่าของ RTX 4090

“เราสร้าง Cosmos เพื่อทำให้ AI ทางกายภาพเป็นประชาธิปไตย และนำหุ่นยนต์ทั่วไปมาไว้ในมือของนักพัฒนาทุกคน” Jensen Huang ผู้ก่อตั้งและ CEO ของ NVIDIA กล่าว “ตัวแทน AI คืออุตสาหกรรมหุ่นยนต์แห่งถัดไปและมีแนวโน้มที่จะเป็นโอกาสมูลค่าหลายพันล้านดอลลาร์”

ด้วยการผสมผสานการสร้างข้อมูลสังเคราะห์ การประมวลผลภาพ และโมเดลภาษาขั้นสูงไว้ภายใต้ที่เดียว NVIDIA มุ่งมั่นที่จะปรับปรุงการเปลี่ยนแปลงจาก การสร้างข้อมูลให้กับระบบ AI ที่ทำงานได้เต็มรูปแบบ แนวทางนี้เป็นไปตามความสำเร็จของซีรีส์ Nemotron-4 340B ซึ่งก่อนหน้านี้ได้แก้ไขปัญหาการขาดแคลนข้อมูลการฝึกอบรมคุณภาพสูงสำหรับโมเดลภาษาขนาดใหญ่ (LLM)

[เนื้อหาแบบฝัง]

Nemotron-4 340B: การก่อตั้งรากฐานที่ขับเคลื่อนด้วยข้อมูล

ในช่วงกลางปี 2024 NVIDIA ได้เปิดตัวโมเดล Nemotron-4 340B เพื่อจัดการกับความพร้อมใช้งานของข้อมูลที่จำกัดสำหรับแอปพลิเคชัน AI ที่ซับซ้อนเหล่านี้ แบบจำลองสร้างข้อมูลสังเคราะห์ในวงกว้าง ช่วยให้สามารถปรับแต่งและปรับใช้ในระดับสูงสำหรับอุตสาหกรรม เช่น การดูแลสุขภาพ การเงิน และการผลิต

Nemotron-4 340B นำเสนอสามรูปแบบ ได้แก่ Base, Instruct และ รางวัล โมเดล Instruct ช่วยให้นักพัฒนาแนะนำเอาต์พุต AI ผ่านคำสั่งที่ชัดเจน ในขณะที่โมเดล Reward ให้คะแนนการตอบสนองที่สร้างขึ้นตามพารามิเตอร์ เช่น ความแม่นยำและการเชื่อมโยงกัน กลไกการตอบรับซ้ำนี้ได้รับการพิสูจน์แล้วว่ามีประโยชน์สำหรับการฝึกโมเดลภาษาขนาดใหญ่ เร่งการพัฒนาและปรับปรุงความน่าเชื่อถือของโมเดล

โครงการริเริ่ม Nemotron-4 340B ยังผสานรวมเข้ากับแพลตฟอร์ม NeMo ของ NVIDIA และไลบรารี TensorRT-LLM ได้อย่างราบรื่น ทำให้ผู้ใช้ได้รับการเพิ่มประสิทธิภาพ และความยืดหยุ่นในเวิร์กโฟลว์ AI ข้อมูลสังเคราะห์ที่สร้างขึ้นโดย Nemotron-4 340B ได้วางรากฐานสำหรับความก้าวหน้าล่าสุดของ NVIDIA ในด้าน AI แบบตัวแทนและทางกายภาพ การเชื่อมโยงการจัดการข้อมูล การฝึกโมเดล และความต้องการในการปรับใช้

Llama Nemotron และ Cosmos Nemotron: การขยาย Agentic AI

ข้อเสนอใหม่ล่าสุดของ NVIDIA ในตระกูล Nemotron—Llama Nemotron และ Cosmos Nemotron—ก้าวไปไกลกว่าแค่ข้อมูล การสร้างพลังให้กับตัวแทน AI แบบเรียลไทม์ โมเดลภาษาขนาดใหญ่ Llama Nemotron (LLM) ให้ความสำคัญกับงานต่างๆ เช่น การเขียนโค้ด การเรียกใช้ฟังก์ชัน แชท และการคำนวณทางคณิตศาสตร์ ในขณะที่โมเดลภาษาการมองเห็น Cosmos Nemotron (VLM) มุ่งเน้นไปที่การตีความและการตอบสนองต่อข้อมูลภาพใน วิดีโอ รูปภาพ และฟีดเซ็นเซอร์

“Agentic AI คือสิ่งต่อไป ขอบเขตของการพัฒนา AI และการส่งมอบโอกาสนี้จำเป็นต้องมีการเพิ่มประสิทธิภาพแบบเต็มสแต็กทั่วทั้งระบบของ LLM เพื่อส่งมอบตัวแทน AI ที่มีประสิทธิภาพและแม่นยำ” Ahmad Al-Dahle รองประธานและหัวหน้า GenAI ของ Meta กล่าวในแถลงการณ์ “ผ่าน ความร่วมมือของเรากับ Nvidia และความมุ่งมั่นร่วมกันของเราในโมเดลแบบเปิด ครอบครัว Nvidia Llama Nemotron ที่สร้างขึ้นบน Llama สามารถช่วยองค์กรต่างๆ สร้างตัวแทน AI แบบกำหนดเองของตนเองได้อย่างรวดเร็ว”

สถาปัตยกรรม NVIDIA Agentic AI (รูปภาพ: Nvidia)

วิธีการแบบสองทางนี้รวมเอา NVIDIA NIM เฉพาะทาง ไมโครเซอร์วิสที่จัดการงานที่ใช้ทรัพยากรจำนวนมาก เช่น การค้นหาวิดีโอ การสรุป และการตีความเซ็นเซอร์ ด้วยการบูรณาการการประมวลผลภาษาและภาพ เจ้าหน้าที่ AI สามารถจัดการแอปพลิเคชันได้หลากหลาย ตั้งแต่โลจิสติกส์คลังสินค้าไปจนถึงการวิเคราะห์ภาพทางการแพทย์

โมเดล Cosmos World Foundation

ควบคู่ไปกับ ตระกูล Llama Nemotron และ Cosmos Nemotron NVIDIA ได้เปิดตัว แพลตฟอร์ม Cosmos World Foundation Model (WFM). แพลตฟอร์มใหม่นี้เชี่ยวชาญในการสร้างวิดีโอและสภาพแวดล้อมเสมือนจริงตามฟิสิกส์สำหรับหุ่นยนต์ ยานพาหนะอัตโนมัติ และสถานการณ์”AI ทางกายภาพ”ทั่วไป การมุ่งเน้นไปที่การจำลองแบบสมจริงจะช่วยลดต้นทุนที่เกี่ยวข้องกับการรวบรวมและทดสอบข้อมูลจำนวนมหาศาลในโลกแห่งความเป็นจริง/p>

“ช่วงเวลา ChatGPT สำหรับวิทยาการหุ่นยนต์กำลังจะมาถึง เช่นเดียวกับโมเดลภาษาขนาดใหญ่ โมเดลรากฐานของโลกเป็นพื้นฐานของการพัฒนาหุ่นยนต์และ AV ที่ก้าวหน้า แต่ไม่ใช่นักพัฒนาทุกคนที่มีความเชี่ยวชาญและทรัพยากรในการฝึกอบรมของตนเอง”กล่าว Huang ในปาฐกถาเปิดงานของเขาที่ CES

นักพัฒนาสามารถใช้ Cosmos WFM เพื่อสร้างสถานการณ์ที่ปรับแต่งโดยเฉพาะ เพิ่มความซับซ้อน เช่น ถนนที่เต็มไปด้วยหิมะสำหรับระบบ AV หรือพื้นคลังสินค้าที่แออัดสำหรับการทดสอบหุ่นยนต์ ชุดข้อมูลที่คำนึงถึงฟิสิกส์เหล่านี้สามารถปรับแต่งโมเดลที่มีอยู่หรือทำหน้าที่เป็นทรัพยากรการฝึกอบรมแบบสแตนด์อโลนได้ บริษัทได้จัดทำโมเดลเหล่านี้ให้ใช้งานได้ภายใต้ลิขสิทธิ์โมเดลแบบเปิด โดยมีเป้าหมายเพื่อขยายการเข้าถึงการพัฒนา AI ขั้นสูง

การเร่ง AI ทางกายภาพผ่านข้อมูลและประสิทธิภาพการประมวลผล

AI ทางกายภาพยังคงมีความต้องการในการคำนวณ โดยต้องใช้ข้อมูลที่มีความเที่ยงตรงสูงเพื่อจำลองโลกแห่งความเป็นจริง Cosmos จัดการกับความท้าทายเหล่านี้ด้วยการนำเสนอไปป์ไลน์การประมวลผลวิดีโอที่รวดเร็ว โทเค็นไนเซอร์วิดีโอขั้นสูง (พร้อมใช้งานภายใต้ใบอนุญาตรุ่นเปิดของ NVIDIA ผ่านทาง Hugging Face และ GitHub) และ NVIDIA NeMo Curator สำหรับการติดป้ายกำกับและการดูแลจัดการข้อมูล

ไปป์ไลน์นี้มีจุดมุ่งหมายเพื่อประมวลผลข้อมูลวิดีโอจำนวนมหาศาล สูงสุด 20 ล้านชั่วโมงใน 14 วันโดยใช้แพลตฟอร์ม NVIDIA Blackwell แทนที่จะเป็นการดำเนินการที่ผูกกับ CPU เป็นเวลาหลายปี

ประสิทธิภาพที่เพิ่มขึ้นเหล่านี้ช่วยให้องค์กรต่างๆ ที่ต้องการพัฒนา ทดสอบ และปรับแต่งโมเดล AI ของตน โดยไม่ถูกจำกัดด้วยข้อจำกัดด้านข้อมูลในโลกแห่งความเป็นจริง Cosmos Tokenizer บีบอัดรูปภาพและวิดีโอ ช่วยลดค่าใช้จ่ายขณะเดียวกันก็รักษาคุณภาพที่จำเป็นสำหรับการฝึกอบรมระบบ AI ขั้นสูง จากข้อมูลของ NVIDIA การเพิ่มประสิทธิภาพเหล่านี้ปูทางไปสู่การทำซ้ำที่รวดเร็วยิ่งขึ้นในการวิจัยหุ่นยนต์และยานยนต์อัตโนมัติ

การยอมรับในอุตสาหกรรม

ผู้เล่นหลักในด้านหุ่นยนต์และเทคโนโลยียานยนต์มี แสดงความสนใจอย่างมากต่อคอสมอส บริษัทต่างๆ เช่น 1X, Agile Robots, Agility, Figure AI, Foretellix, Uber, Waabi และ XPENG เป็นหนึ่งในบริษัทที่ผสานรวมแพลตฟอร์มใหม่เข้ากับขั้นตอนการพัฒนา

ตัวอย่างเช่น XPENG วางแผนที่จะปรับปรุงหุ่นยนต์ฮิวแมนนอยด์ของตน ความคิดริเริ่มในขณะที่ Uber ยักษ์ที่แชร์รถร่วมกับ NVIDIA เพื่อควบคุม Cosmos เพื่อการจัดการข้อมูลและการสร้างสถานการณ์ที่ดีขึ้น “AI เจนเนอเรชั่นจะขับเคลื่อนอนาคตของการเคลื่อนที่ โดยต้องใช้ทั้งข้อมูลที่สมบูรณ์และการประมวลผลที่ทรงพลังมาก” Dara Khosrowshahi ซีอีโอของ Uber กล่าว “ด้วยการทำงานร่วมกับ NVIDIA เรามั่นใจว่าเราสามารถช่วยเพิ่มไทม์ไลน์สำหรับการขับขี่อัตโนมัติที่ปลอดภัยและปรับขนาดได้ โซลูชันสำหรับอุตสาหกรรม”

บริษัทอย่าง SAP และ ServiceNow ก็หันมาใช้ตระกูล Nemotron ของ NVIDIA ในทำนองเดียวกัน “ตัวแทน AI ที่ทำงานร่วมกันเพื่อแก้ไขปัญหาที่ซับซ้อนในหลายสายธุรกิจจะปลดล็อกระดับใหม่ของประสิทธิภาพการทำงานขององค์กร นอกเหนือจากสถานการณ์ AI ทั่วไปในปัจจุบัน” Philipp Herzig ประธานเจ้าหน้าที่ฝ่าย AI ของ SAP กล่าวในแถลงการณ์ “ด้วย Joule ของ SAP ผู้ใช้ระดับองค์กรหลายร้อยล้านรายจะโต้ตอบกับตัวแทนเหล่านี้เพื่อบรรลุเป้าหมายได้เร็วกว่าที่เคย”

การบูรณาการ NeMo, Open Licensing และความปลอดภัย วัด

อินเทอร์เฟซรุ่น Cosmos WFM และ Nemotron ทั้งหมดกับ เฟรมเวิร์ก NeMo ช่วยให้สามารถปรับแต่งได้อย่างละเอียด การจัดตำแหน่ง และการสร้างเสริมการดึงข้อมูล (RAG) นักพัฒนาสามารถประมวลผลข้อมูลวิดีโอขนาดใหญ่ผ่าน NeMo Curator ในขณะที่การเรียนรู้แบบเสริมแรงจากความคิดเห็นของมนุษย์ (RLHF) จะปรับแต่งโมเดลเพื่อรักษาการตอบสนองตามบริบทที่เหมาะสม

NVIDIA ได้เปิดตัว Cosmos ภายใต้ลิขสิทธิ์แบบเปิด ซึ่งสนับสนุนการทำงานร่วมกันและการปรับแต่งภายในชุมชนหุ่นยนต์และ AV บริษัทยังได้กล่าวถึงมาตรการสำหรับ AI ที่ปลอดภัยและมีความรับผิดชอบ รวมถึงการใส่ลายน้ำเนื้อหาที่สร้างโดย AI การใช้รั้วเพื่อลดข้อความหรือรูปภาพที่เป็นอันตราย และสอดคล้องกับความคิดริเริ่มด้านความปลอดภัยของ AI ระดับโลก

“เรามั่นใจว่าเราสามารถช่วยได้ เร่งรัดไทม์ไลน์สำหรับโซลูชันการขับขี่อัตโนมัติที่ปลอดภัยและปรับขนาดได้สำหรับอุตสาหกรรม”Khosrowshahi กล่าวเสริม โดยเน้นย้ำถึงการให้ความสำคัญกับระบบ AI ที่โปร่งใสและน่าเชื่อถือมากขึ้น

สู่ระบบนิเวศ AI แบบครบวงจร

ด้วยการผสานแนวทางที่ขับเคลื่อนด้วยข้อมูลสังเคราะห์ของ Nemotron-4 340B เข้ากับแพลตฟอร์ม Cosmos WFM ใหม่ NVIDIA ได้กำหนดเส้นทางที่เป็นหนึ่งเดียวสำหรับ AI ที่ครอบคลุม การวิจัย การใช้งานระดับองค์กร และระบบอัตโนมัติทางกายภาพ กลุ่ม Nemotron และ Cosmos Nemotron เข้ามามีบทบาทสำคัญในระบบ AI แบบเอเจนต์ ในขณะที่ Cosmos WFM จัดการกับความซับซ้อนของหุ่นยนต์และยานพาหนะอัตโนมัติ การพัฒนา

ตั้งแต่การเปิดใช้งานการสร้างข้อมูลที่คุ้มค่าไปจนถึงการนำเสนอไมโครเซอร์วิสเฉพาะสำหรับงานภาษาและการมองเห็นแบบเรียลไทม์ ผลงานล่าสุดของ NVIDIA เป็นตัวอย่างกลยุทธ์ที่หลากหลายสำหรับความก้าวหน้าของ AI เมื่อองค์กร นักพัฒนา และนักวิจัยนำโมเดลเหล่านี้มาใช้มากขึ้น แนวทางของระบบอัตโนมัติและตัวแทนซอฟต์แวร์อัจฉริยะก็ดูเหมือนจะพร้อมที่จะเร่งความเร็ว

NVIDIA พัฒนา Agentic AI ด้วยโมเดล Llama และ Cosmos Nemotron

Published by All Things Windows on January 7, 2025

Nemotron-4 340B: การก่อตั้งรากฐานที่ขับเคลื่อนด้วยข้อมูล

Llama Nemotron และ Cosmos Nemotron: การขยาย Agentic AI

โมเดล Cosmos World Foundation

การเร่ง AI ทางกายภาพผ่านข้อมูลและประสิทธิภาพการประมวลผล

การยอมรับในอุตสาหกรรม

การบูรณาการ NeMo, Open Licensing และความปลอดภัย วัด

สู่ระบบนิเวศ AI แบบครบวงจร

IT Info

โหมดประสิทธิภาพของ Microsoft Edge: มันทำอะไร & จะปิดหรือเปิดได้อย่างไร?

IT Info

AI Startup Anthropic จับตาการประเมินมูลค่า 60 พันล้านดอลลาร์พร้อมการระดมทุนรอบใหม่

IT Info

NVIDIA เปิดตัว Reflex 2: เพิ่มค่า Latency 75% ทำลายสถิติด้วย Predictive Rendering

NVIDIA พัฒนา Agentic AI ด้วยโมเดล Llama และ Cosmos Nemotron

Published by All Things Windows on January 7, 2025

Nemotron-4 340B: การก่อตั้งรากฐานที่ขับเคลื่อนด้วยข้อมูล

Llama Nemotron และ Cosmos Nemotron: การขยาย Agentic AI

โมเดล Cosmos World Foundation

การเร่ง AI ทางกายภาพผ่านข้อมูลและประสิทธิภาพการประมวลผล

การยอมรับในอุตสาหกรรม

การบูรณาการ NeMo, Open Licensing และความปลอดภัย วัด

สู่ระบบนิเวศ AI แบบครบวงจร

Related Posts

IT Info

โหมดประสิทธิภาพของ Microsoft Edge: มันทำอะไร & จะปิดหรือเปิดได้อย่างไร?

IT Info

AI Startup Anthropic จับตาการประเมินมูลค่า 60 พันล้านดอลลาร์พร้อมการระดมทุนรอบใหม่

IT Info

NVIDIA เปิดตัว Reflex 2: เพิ่มค่า Latency 75% ทำลายสถิติด้วย Predictive Rendering