NVIDIA đã công bố một số cải tiến về AI tại CES 2025, hé lộ những phát triển mới kết hợp những thành công trước đây của công ty trong việc tạo dữ liệu tổng hợp với trọng tâm là đưa ra quyết định tự động.

Các bản phát hành mới bao gồm Nền tảng Mô hình nền tảng thế giới vũ trụ (WFM)—một bộ công cụ mở rộng để tạo các video và kịch bản dựa trên vật lý, quang học—và Llama Nemotron cộng với Các dòng Cosmos Nemotron, hỗ trợ ngôn ngữ, tầm nhìn và AI ra quyết định trong nhiều lĩnh vực khác nhau như robot, chăm sóc sức khỏe và phương tiện tự hành.

Liên quan: Nvidia tiết lộ GPU Blackwell RTX 50-Series với DLSS 4 và sức mạnh gấp đôi so với RTX 4090

“Chúng tôi tạo ra Cosmos để dân chủ hóa AI vật lý và đưa robot nói chung đến với mọi nhà phát triển,” Jensen Huang, người sáng lập và Giám đốc điều hành của NVIDIA cho biết. “Các tác nhân AI là ngành công nghiệp robot tiếp theo và có khả năng là cơ hội trị giá hàng tỷ đô la.”

Bằng cách kết hợp việc tạo dữ liệu tổng hợp, xử lý thị giác và các mô hình ngôn ngữ nâng cao dưới một cái ô, NVIDIA mong muốn hợp lý hóa quá trình chuyển đổi từ tạo dữ liệu cho các hệ thống AI hoạt động đầy đủ. Cách tiếp cận này tiếp nối thành công của dòng Nemotron-4 340B, vốn trước đây đã giải quyết tình trạng thiếu dữ liệu đào tạo chất lượng cao cho các mô hình ngôn ngữ lớn (LLM).

[nội dung nhúng] Nemotron-4 340B: Thành lập Nền tảng dựa trên dữ liệu

Vào giữa năm 2024, NVIDIA đã giới thiệu các mẫu Nemotron-4 340B để giải quyết tình trạng sẵn có dữ liệu hạn chế cho các ứng dụng AI phức tạp. các mô hình tạo ra dữ liệu tổng hợp trên quy mô lớn, cho phép sàng lọc và thích ứng ở mức độ cao cho các ngành như chăm sóc sức khỏe, tài chính và sản xuất.

Nemotron-4 340B cung cấp ba biến thể—Cơ sở, Hướng dẫn và Phần thưởng. Các mô hình hướng dẫn đã giúp các nhà phát triển hướng dẫn kết quả đầu ra của AI thông qua các chỉ thị rõ ràng, trong khi các mô hình Phần thưởng ghi điểm các phản hồi được tạo dựa trên các thông số như độ chính xác và tính mạch lạc. Cơ chế phản hồi lặp đi lặp lại này tỏ ra có giá trị trong việc đào tạo các mô hình ngôn ngữ lớn, tăng tốc độ phát triển và cải thiện độ tin cậy của mô hình.

Sáng kiến ​​Nemotron-4 340B cũng được tích hợp liền mạch với nền tảng NeMo của NVIDIA và thư viện TensorRT-LLM, cung cấp cho người dùng khả năng tối ưu hóa và tính linh hoạt trong quy trình làm việc AI của họ. Dữ liệu tổng hợp do Nemotron-4 340B tạo ra đã đặt nền móng cho những đột phá mới nhất của NVIDIA về AI vật lý và tác nhân, kết nối các nhu cầu quản lý dữ liệu, đào tạo mô hình và triển khai.

Llama Nemotron và Cosmos Nemotron: Mở rộng Agentic AI

Các sản phẩm mới nhất của NVIDIA trong dòng Nemotron—Llama Nemotron và Cosmos Nemotron—không chỉ dừng lại ở việc tạo dữ liệu để cung cấp năng lượng cho các đặc vụ AI thời gian thực. Các mô hình ngôn ngữ lớn (LLM) của Llama Nemotron phục vụ cho các nhiệm vụ như mã hóa, gọi hàm, trò chuyện và tính toán toán học, trong khi các mô hình ngôn ngữ thị giác Cosmos Nemotron (VLM) tập trung vào việc diễn giải và phản hồi dữ liệu trực quan trong video, hình ảnh và nguồn cấp dữ liệu cảm biến.

“Agent AI là biên giới tiếp theo của việc phát triển AI và cung cấp Ahmad Al-Dahle, phó chủ tịch kiêm người đứng đầu GenAI tại Meta, cho biết: “Thông qua sự cộng tác của chúng tôi với Nvidia và sự chia sẻ của chúng tôi, cơ hội này đòi hỏi phải tối ưu hóa toàn diện trên một hệ thống LLM để cung cấp các tác nhân AI chính xác, hiệu quả”. cam kết với các mô hình mở, dòng Nvidia Llama Nemotron được xây dựng trên Llama có thể giúp các doanh nghiệp nhanh chóng tạo ra các tác nhân AI tùy chỉnh của riêng họ.”

Kiến trúc Nvidia Agentic AI (Hình ảnh: Nvidia)

Phương pháp tiếp cận hai hướng này kết hợp vi dịch vụ NVIDIA NIM chuyên biệt để xử lý các tác vụ nặng về tài nguyên như tìm kiếm video, tóm tắt và giải thích cảm biến. Bằng cách tích hợp xử lý ngôn ngữ và hình ảnh, tác nhân AI có thể quản lý nhiều ứng dụng, từ hậu cần kho hàng đến phân tích hình ảnh y tế.

Mô hình nền tảng thế giới Cosmos

Bên cạnh đó dòng Llama Nemotron và Cosmos Nemotron, NVIDIA đã ra mắt Nền tảng Mô hình Tổ chức Thế giới Cosmos (WFM). Nền tảng mới này chuyên tạo ra các video và môi trường dựa trên vật lý, quang học cho robot, xe tự hành và các kịch bản chung về”AI vật lý”. Việc tập trung vào mô phỏng thực tế giúp giảm chi phí liên quan đến việc thu thập và thử nghiệm lượng lớn dữ liệu trong thế giới thực.

“Thời điểm ChatGPT dành cho robot đang đến, Giống như các mô hình ngôn ngữ lớn, các mô hình nền tảng thế giới là nền tảng để thúc đẩy sự phát triển robot và AV, tuy nhiên không phải tất cả các nhà phát triển đều có chuyên môn và nguồn lực để tự đào tạo,” Huang lưu ý trong bài phát biểu khai mạc của ông tại CES.

Các nhà phát triển có thể sử dụng Cosmos WFM để tạo ra các kịch bản phù hợp, bổ sung thêm các yếu tố phức tạp như đường phủ tuyết cho hệ thống AV hoặc sàn nhà kho tắc nghẽn để thử nghiệm robot. Các bộ dữ liệu nhận biết vật lý này có thể tinh chỉnh các mô hình hiện có hoặc đóng vai trò là tài nguyên đào tạo độc lập. Công ty đã cung cấp các mô hình này theo giấy phép mô hình mở, nhằm mở rộng khả năng tiếp cận phát triển AI nâng cao.

Tăng tốc AI vật lý thông qua hiệu quả dữ liệu và tính toán

AI vật lý vẫn đòi hỏi khả năng tính toán cao, đòi hỏi dữ liệu có độ chính xác cao để mô phỏng thế giới thực. Cosmos giải quyết những thách thức này bằng cách cung cấp quy trình xử lý video tăng tốc, công cụ mã thông báo video nâng cao (có sẵn theo giấy phép mô hình mở của NVIDIA, thông qua Ôm mặt và GitHub) và Trình quản lý NVIDIA NeMo để gắn nhãn và quản lý dữ liệu.

Quy trình này nhằm mục đích xử lý lượng lớn dữ liệu video—lên tới 20 triệu giờ trong 14 ngày bằng cách sử dụng nền tảng NVIDIA Blackwell—thay vì hoạt động dựa trên CPU trong nhiều năm.

Những mức tăng hiệu quả này giúp các tổ chức đang tìm cách phát triển, thử nghiệm và cải tiến các mô hình AI của họ mà không bị giới hạn bởi các hạn chế về dữ liệu trong thế giới thực. Cosmos Tokenizer nén hình ảnh và video, giảm chi phí trong khi vẫn duy trì chất lượng cần thiết để đào tạo các hệ thống AI tiên tiến. Theo NVIDIA, những tối ưu hóa này mở đường cho quá trình lặp lại nhanh hơn trong nghiên cứu robot và xe tự hành.

Việc áp dụng trong ngành

Các công ty lớn trong lĩnh vực robot và công nghệ ô tô đã tỏ ra rất quan tâm đến Cosmos. Các công ty như 1X, Agile Robots, Agility, Hình AI, Foretellix, Uber, Waabi và XPENG nằm trong số những công ty tích hợp nền tảng mới vào quy trình phát triển của họ.

Ví dụ: XPENG có kế hoạch tăng cường chế tạo robot hình người trong khi gã khổng lồ chia sẻ xe Uber hợp tác với NVIDIA để khai thác Cosmos nhằm quản lý dữ liệu và tạo kịch bản tốt hơn. Dara Khosrowshahi, Giám đốc điều hành của Uber, cho biết: “Generative AI sẽ thúc đẩy tương lai của tính di động, đòi hỏi cả dữ liệu phong phú và khả năng tính toán rất mạnh mẽ”. giải pháp cho ngành.”

Các công ty như SAP và ServiceNow cũng sử dụng dòng Nemotron của NVIDIA một cách tương tự. Philipp Herzig, giám đốc AI tại SAP, cho biết trong một tuyên bố: “Các tác nhân AI cộng tác để giải quyết các nhiệm vụ phức tạp trên nhiều lĩnh vực kinh doanh sẽ mở ra một cấp độ hoàn toàn mới về năng suất doanh nghiệp ngoài các kịch bản AI tổng quát ngày nay”. hàng trăm triệu người dùng doanh nghiệp sẽ tương tác với các tác nhân này để hoàn thành mục tiêu của họ nhanh hơn bao giờ hết.”

Tích hợp NeMo, Cấp phép mở và các biện pháp an toàn

Tất cả các WFM của Cosmos và các mô hình Nemotron có giao diện với khuôn khổ NeMo của NVIDIA, cho phép tinh chỉnh, căn chỉnh, và thế hệ tăng cường truy xuất (RAG). Thông qua NeMo Curator, các nhà phát triển có thể xử lý dữ liệu video quy mô lớn, đồng thời học tăng cường từ phản hồi của con người (RLHF) tinh chỉnh các mô hình để duy trì phản hồi phù hợp, theo ngữ cảnh.

NVIDIA đã phát hành Cosmos theo giấy phép mô hình mở, khuyến khích sự hợp tác và tùy chỉnh trong cộng đồng robot và AV. Công ty cũng lưu ý các biện pháp nhằm đảm bảo AI an toàn và có trách nhiệm, bao gồm hình mờ nội dung do AI tạo ra, triển khai các biện pháp bảo vệ để giảm thiểu văn bản hoặc hình ảnh có hại, đồng thời điều chỉnh phù hợp với các sáng kiến ​​an toàn AI toàn cầu.

“Chúng tôi tự tin rằng mình có thể giúp đỡ Khosrowshahi bổ sung thêm dòng thời gian cho các giải pháp lái xe tự động an toàn và có thể mở rộng quy mô”, đồng thời nhấn mạnh sự chú trọng ngày càng tăng vào các hệ thống AI minh bạch, đáng tin cậy.

Hướng tới một Hệ sinh thái AI thống nhất

Bằng cách hợp nhất phương pháp tiếp cận dựa trên dữ liệu tổng hợp của Nemotron-4 340B với nền tảng Cosmos WFM mới, NVIDIA đặt ra một lộ trình thống nhất cho AI mở rộng nghiên cứu, triển khai doanh nghiệp và tự động hóa vật lý. vai trò trong AI tác nhân, trong khi Cosmos WFM giải quyết sự phức tạp của việc phát triển robot và phương tiện tự hành.

Từ việc cho phép tạo dữ liệu hiệu quả về mặt chi phí đến cung cấp các dịch vụ vi mô chuyên biệt cho ngôn ngữ và tầm nhìn theo thời gian thực nhiệm vụ, danh mục sản phẩm mới nhất của NVIDIA minh họa cho một chiến lược linh hoạt để phát triển AI. Khi ngày càng nhiều doanh nghiệp, nhà phát triển và nhà nghiên cứu áp dụng các mô hình này, quỹ đạo của các hệ thống tự trị và tác nhân phần mềm thông minh dường như đã sẵn sàng tăng tốc.

Categories: IT Info