NVIDIA telah mengumumkan beberapa kemajuan dalam AI di CES 2025, mengungkap perkembangan baru yang menggabungkan kesuksesan perusahaan sebelumnya dalam pembuatan data sintetis dengan fokusnya pada pengambilan keputusan otonom.

Rilisan baru ini mencakup Platform Cosmos World Foundation Model (WFM)—perangkat ekstensif untuk membuat video fotoreal dan berbasis fisika skenario—dan Llama Nemotron ditambah keluarga Cosmos Nemotron, yang memungkinkan bahasa, visi, dan AI pengambilan keputusan di berbagai sektor seperti robotika, layanan kesehatan, dan kendaraan otonom.

Terkait: Nvidia Mengungkapkan GPU Blackwell Seri RTX 50 dengan DLSS 4 dan Twice the Kekuatan RTX 4090

“Kami menciptakan Cosmos untuk mendemokratisasi AI fisik dan menempatkan robotika umum dalam jangkauan setiap pengembang,” kata Jensen Huang, pendiri dan CEO NVIDIA. “Agen AI adalah industri robotik berikutnya dan kemungkinan akan menjadi peluang bernilai miliaran dolar.”

Dengan menggabungkan pembuatan data sintetis, pemrosesan visi, dan model bahasa tingkat lanjut di bawah satu payung, NVIDIA bercita-cita untuk menyederhanakan transisi dari pembuatan data untuk sistem AI yang beroperasi penuh. Pendekatan ini mengikuti keberhasilan seri Nemotron-4 340B, yang sebelumnya mengatasi kekurangan data pelatihan berkualitas tinggi untuk model bahasa besar (LLM).

[konten tersemat]

Nemotron-4 340B: Membangun Landasan Berbasis Data

Pada pertengahan tahun 2024, NVIDIA memperkenalkan model Nemotron-4 340B untuk mengatasi terbatasnya ketersediaan data untuk aplikasi AI yang kompleks model menghasilkan data sintetis dalam skala besar, memungkinkan penyempurnaan dan adaptasi tingkat tinggi untuk industri seperti layanan kesehatan, keuangan, dan manufaktur.

Nemotron-4 340B menawarkan tiga varian—Base, Instruct, dan Reward. Model Instruct membantu pengembang memandu keluaran AI melalui arahan yang jelas, sedangkan model Reward menilai respons yang dihasilkan berdasarkan parameter seperti akurasi dan koherensi. Mekanisme umpan balik berulang ini terbukti bermanfaat untuk melatih model bahasa besar, mempercepat pengembangan, dan meningkatkan keandalan model.

Inisiatif Nemotron-4 340B juga terintegrasi secara mulus dengan platform NeMo NVIDIA dan pustaka TensorRT-LLM, sehingga memberikan pengoptimalan kepada pengguna dan fleksibilitas dalam alur kerja AI mereka. Data sintetis yang dihasilkan oleh Nemotron-4 340B meletakkan dasar bagi terobosan terbaru NVIDIA dalam AI agenik dan fisik, yang menjembatani kurasi data, pelatihan model, dan kebutuhan penerapan.

Llama Nemotron dan Cosmos Nemotron: Memperluas Agentic AI

Penawaran terbaru NVIDIA dalam keluarga Nemotron—Llama Nemotron dan Cosmos Nemotron—lebih dari sekadar data generasi untuk mendukung agen AI real-time. Model bahasa besar (LLM) Llama Nemotron melayani tugas-tugas seperti pengkodean, pemanggilan fungsi, obrolan, dan komputasi matematis, sedangkan model bahasa visi (VLM) Cosmos Nemotron berfokus pada interpretasi dan respons data visual di video, gambar, dan umpan sensor.

“Agentic AI adalah yang terdepan pengembangan AI, dan mewujudkan peluang ini memerlukan optimalisasi menyeluruh di seluruh sistem LLM untuk menghasilkan agen AI yang efisien dan akurat,”kata Ahmad Al-Dahle, wakil presiden dan kepala GenAI di Meta, dalam sebuah pernyataan. “Melalui kami berkolaborasi dengan Nvidia dan komitmen bersama kami terhadap model terbuka, keluarga Nvidia Llama Nemotron yang dibangun di atas Llama dapat membantu perusahaan dengan cepat membuat agen AI kustom mereka sendiri.”

Arsitektur AI Agentik Nvidia (Gambar: Nvidia)

Pendekatan dua arah ini menggabungkan NVIDIA NIM khusus layanan mikro yang menangani tugas-tugas yang membutuhkan banyak sumber daya seperti penelusuran video, peringkasan, dan interpretasi sensor. Dengan mengintegrasikan bahasa dan pemrosesan visual, agen AI dapat mengelola berbagai aplikasi, mulai dari logistik gudang hingga analisis pencitraan medis.

Cosmos World Foundation Models

Bersamaan keluarga Llama Nemotron dan Cosmos Nemotron, NVIDIA meluncurkan platform Cosmos World Foundation Model (WFM). Platform baru ini berspesialisasi dalam menghasilkan video dan lingkungan fotoreal berbasis fisika untuk robotika, kendaraan otonom, dan skenario “AI fisik” umum. Fokusnya pada simulasi realistis menurunkan biaya yang terkait dengan pengumpulan dan pengujian data dunia nyata dalam jumlah besar.

“Momen ChatGPT untuk robotika akan segera tiba. Seperti model bahasa besar, model dasar dunia sangat penting untuk memajukan pengembangan robot dan AV, namun tidak semua pengembang memiliki keahlian dan sumber daya untuk melatihnya sendiri,”kata Huang dalam keynote pembukanya di CES.

Pengembang dapat menggunakan Cosmos WFM untuk membuat skenario yang disesuaikan, menambahkan kompleksitas seperti jalan bersalju untuk sistem AV atau lantai gudang yang padat untuk pengujian robotika. Kumpulan data yang peka terhadap fisika ini dapat menyempurnakan model yang ada atau berfungsi sebagai sumber daya pelatihan mandiri. Perusahaan telah menyediakan model ini di bawah lisensi model terbuka, yang bertujuan untuk memperluas akses terhadap pengembangan AI tingkat lanjut.

Mempercepat AI Fisik Melalui Efisiensi Data dan Komputasi

AI fisik tetap menuntut komputasi, membutuhkan data dengan ketelitian tinggi untuk mensimulasikan dunia nyata. Cosmos mengatasi tantangan ini dengan menawarkan pipeline pemrosesan video yang dipercepat, tokenizer video tingkat lanjut (tersedia di bawah lisensi model terbuka NVIDIA, melalui Hugging Face dan GitHub), dan NVIDIA NeMo Curator untuk pelabelan dan kurasi data.

Pipa ini bertujuan untuk memproses data video dalam jumlah besar—hingga 20 juta jam dalam 14 hari menggunakan platform NVIDIA Blackwell—bukan operasi yang terikat CPU selama bertahun-tahun.

Peningkatan efisiensi ini membantu organisasi yang ingin mengembangkan, menguji, dan menyempurnakan model AI mereka tanpa dibatasi oleh kendala data di dunia nyata. Cosmos Tokenizer mengompresi gambar dan video, mengurangi overhead sekaligus menjaga kualitas penting untuk melatih sistem AI tingkat lanjut. Menurut NVIDIA, optimalisasi ini membuka jalan bagi iterasi yang lebih cepat dalam penelitian robotika dan kendaraan otonom.

Adopsi Industri

Pemain utama dalam robotika dan teknologi otomotif telah melakukannya menunjukkan minat yang kuat pada Cosmos. Perusahaan seperti 1X, Agile Robots, Agility, Figure AI, Foretellix, Uber, Waabi, dan XPENG termasuk di antara perusahaan-perusahaan yang mengintegrasikan platform baru ini ke dalam jalur pengembangan mereka.

Misalnya, XPENG berencana untuk meningkatkan robotika humanoidnya inisiatif, sementara raksasa ridesharing Uber berkolaborasi dengan NVIDIA untuk memanfaatkan Cosmos untuk kurasi data dan pembuatan skenario yang lebih baik. “AI generatif akan mendukung masa depan mobilitas, yang membutuhkan data yang kaya dan komputasi yang sangat kuat,” kata Dara Khosrowshahi, CEO Uber. “Dengan bekerja sama dengan NVIDIA, kami yakin bahwa kami dapat membantu mempercepat waktu untuk berkendara otonom yang aman dan terukur. solusi untuk industri.”

Perusahaan seperti SAP dan ServiceNow juga telah menggunakan keluarga Nemotron NVIDIA. “Agen AI yang berkolaborasi untuk menyelesaikan tugas-tugas kompleks di berbagai lini bisnis akan membuka tingkat produktivitas perusahaan yang baru di luar skenario AI generatif saat ini,” kata Philipp Herzig, chief AI officer di SAP, dalam sebuah pernyataan. “Melalui Joule dari SAP, ratusan juta pengguna perusahaan akan berinteraksi dengan agen-agen ini untuk mencapai tujuan mereka lebih cepat dari sebelumnya.”

Integrasi NeMo, Lisensi Terbuka, dan Tindakan Keamanan

Semua Model Cosmos WFM dan Nemotron berinteraksi dengan kerangka kerja NeMo NVIDIA, sehingga memungkinkan penyesuaian, penyelarasan, dan generasi augmented pengambilan (RAG). Melalui NeMo Curator, developer dapat memproses data video berskala besar, sementara pembelajaran penguatan dari umpan balik manusia (RLHF) menyempurnakan model untuk mempertahankan respons yang sesuai dan berdasarkan konteks.

NVIDIA telah merilis Cosmos di bawah lisensi model terbuka, mendorong kolaborasi dan penyesuaian dalam komunitas robotika dan AV. Perusahaan juga mencatat langkah-langkah untuk AI yang aman dan bertanggung jawab, termasuk memberi watermark pada konten yang dibuat oleh AI, menerapkan pagar pembatas untuk memitigasi teks atau gambar yang berbahaya, dan menyelaraskan dengan inisiatif keselamatan AI global.

“Kami yakin dapat membantu meningkatkan timeline untuk solusi mengemudi otonom yang aman dan terukur bagi industri,”tambah Khosrowshahi, menggarisbawahi semakin besarnya penekanan pada sistem AI yang tepercaya dan transparan.

Menuju AI Terpadu Ekosistem

Dengan menggabungkan pendekatan berbasis data sintetis Nemotron-4 340B dengan platform Cosmos WFM yang baru, NVIDIA menetapkan jalur terpadu untuk AI yang mencakup penelitian, penerapan di perusahaan, dan otomatisasi fisik. Keluarga Llama Nemotron dan Cosmos Nemotron mengisi peran penting dalam AI agen, sementara Cosmos WFM mengatasi kompleksitas robotika dan pengembangan kendaraan otonom.

Dari memungkinkan pembuatan data yang hemat biaya hingga menawarkan produk khusus. layanan mikro untuk tugas bahasa dan penglihatan secara real-time, portofolio terbaru NVIDIA memberikan contoh strategi serbaguna untuk kemajuan AI. Seiring dengan semakin banyaknya perusahaan, developer, dan peneliti yang mengadopsi model ini, perkembangan sistem otonom dan agen perangkat lunak cerdas tampaknya siap untuk dipercepat.

Categories: IT Info