Công ty khởi nghiệp AI của Elon Musk, xAI, đang tăng tốc phát triển các”mô hình thế giới”mô phỏng thực tế bằng cách thuê các chuyên gia chủ chốt từ gã khổng lồ chip Nvidia.

Theo báo cáo, công ty đã mời các nhà nghiên cứu AI Zeeshan Patel và Ethan He vào mùa hè, báo hiệu một thách thức trực tiếp đối với các nhà lãnh đạo ngành trong cuộc chạy đua vũ trang AI lớn tiếp theo.

Thúc đẩy chiến lược này nhấn mạnh tầm quan trọng ngày càng tăng của các mô hình thế giới—AI tiên tiến có thể hiểu và dự đoán môi trường vật lý. Đối với Musk và các đối thủ của ông, việc làm chủ công nghệ này là một bước quan trọng để tạo ra AI có năng lực cao hơn cho robot, chơi game và cuối cùng là trí tuệ nhân tạo tổng hợp (AGI).

Động thái này cũng làm sâu sắc thêm mối quan hệ giữa hai công ty. Nvidia không chỉ là nguồn cung cấp nhân tài mà còn là nhà đầu tư được xác nhận vào xAI, một sự thật gần đây đã được xác nhận bởi CEO Jensen Huang. Liên minh này nhấn mạnh nguồn lực tính toán khổng lồ cần thiết để xây dựng các mô hình phức tạp này.

xAI tham gia cuộc cạnh tranh với nhân tài và đầu tư của Nvidia

Trong khi xAI được biết đến với chatbot Grok, sáng kiến ​​mới này đánh dấu một sự mở rộng đáng kể ngoài các mô hình ngôn ngữ. Việc tuyển dụng nhân tài từ Nvidia, công ty hàng đầu về mô phỏng với nền tảng Omniverse, là một tuyên bố rõ ràng về ý định xây dựng AI có thể hiểu và tương tác với không gian 3D chứ không chỉ văn bản.

Tham vọng của xAI không thuần túy mang tính học thuật. Musk đã công khai tuyên bố mục tiêu của công ty là phát hành một “trò chơi tuyệt vời do AI tạo ra trước cuối năm sau”. Dòng thời gian tích cực này cho thấy xAI tập trung vào việc chuyển các nghiên cứu tiên tiến thành các sản phẩm hữu hình, có khả năng phá vỡ ngành giải trí tương tác.

Để đạt được điều này, công ty đang xây dựng một “nhóm đa năng” tập trung vào các hệ thống AI có thể hiểu và tạo ra nội dung trên nhiều định dạng khác nhau, bao gồm ảnh, video và âm thanh. Việc tuyển dụng Patel, người có công việc tập trung vào các mô hình tổng quát và tầm nhìn 3D, phù hợp trực tiếp với chiến lược đa phương thức này.

Mô hình thế giới là gì và tại sao chúng quan trọng?

Các mô hình thế giới thể hiện sự thay đổi cơ bản trong quá trình phát triển AI. Thay vì chỉ xử lý dữ liệu, họ xây dựng một mô phỏng thực tế bên trong, cho phép họ dự đoán các hành động sẽ diễn ra như thế nào trong không gian vật lý. Khả năng này được coi là nền tảng cho tương lai của AI.

Không giống như các công cụ vật lý truyền thống dựa trên các quy tắc được mã hóa cứng, các mô hình này học cách nắm bắt thực tế một cách trực quan bằng cách phân tích lượng lớn dữ liệu video. Như Juan Bernabé-Moreno, giám đốc tại IBM Research, giải thích: “Các mô hình thế giới cho phép máy móc lập kế hoạch chuyển động và tương tác trong không gian mô phỏng, thường được gọi là ‘cặp song sinh kỹ thuật số’, trước khi thử chúng trong thế giới vật lý”.

Phương pháp “song sinh kỹ thuật số” này cho phép AI học hỏi từ việc thử và sai trong môi trường ảo, an toàn, tăng tốc đáng kể việc đào tạo cho các nhiệm vụ như robot và điều hướng tự động.

Đây là lý do tại sao nhiều người trong lĩnh vực này tin rằng các mô hình thế giới là cần thiết để đạt được AGI. Jack Parker-Holder, một nhà khoa học nghiên cứu tại DeepMind, nhấn mạnh điểm này, nói rằng: “chúng tôi nghĩ rằng các mô hình thế giới là chìa khóa trên con đường hướng tới AGI, đặc biệt đối với các tác nhân được thể hiện, trong đó việc mô phỏng các kịch bản trong thế giới thực là một thách thức đặc biệt.”

A Crowded Field: The Global Race to Simulate Reality

xAI đang bước vào một đấu trường có tính cạnh tranh cao. Google DeepMind đã trở thành một thế lực thống trị, chính thức thành lập một nhóm mô hình thế giới chuyên dụng vào đầu năm 2025. Tim Brooks, trưởng nhóm của nhóm, đã thông báo rằng “DeepMind có những kế hoạch đầy tham vọng nhằm tạo ra các mô hình tổng hợp khổng lồ mô phỏng thế giới”, báo hiệu cam kết quan trọng của công ty.

Công nghệ của DeepMind đã phát triển nhanh chóng. Mẫu Genie 2 đầu tiên của nó, được phát hành vào cuối năm 2024, chỉ có thể duy trì mô phỏng trong khoảng 20 giây. Người kế nhiệm của nó, Genie 3, ra mắt vào tháng 8 năm 2025, thể hiện một bước nhảy vọt lớn, tạo ra thế giới 3D tương tác trong vài phút và thậm chí cho phép thay đổi theo thời gian thực thông qua lời nhắc bằng văn bản.

Meta cũng đã khẳng định tuyên bố của mình với V-JEPA 2, một mô hình nguồn mở được thiết kế để mang lại cho robot khả năng nhận thức chung về thể chất bằng cách học hỏi từ video. Trong khi đó, gã khổng lồ công nghệ Trung Quốc Tencent đã phát hành HunyuanWorld-Voyager, công cụ có thể tạo ra thế giới 3D có thể khám phá từ một hình ảnh duy nhất và đã cho thấy hiệu suất mạnh mẽ theo các tiêu chuẩn của ngành.

Con đường phía trước: Từ nghiên cứu đầy tham vọng đến tác động trong thế giới thực

Mặc dù có tiến bộ nhanh chóng nhưng công nghệ này vẫn đang ở giai đoạn đầu. Các nhà nghiên cứu thừa nhận rằng vẫn còn những trở ngại đáng kể trước khi các mô hình này có thể được triển khai một cách đáng tin cậy. Những thách thức chính bao gồm kéo dài thời gian mô phỏng và đảm bảo các hành động của AI chính xác và an toàn về mặt vật lý.

Các mô hình hiện tại cũng gặp khó khăn với các nhiệm vụ cụ thể như hiển thị chính xác văn bản hoặc mô phỏng các tương tác phức tạp giữa nhiều tác nhân độc lập. Shlomi Fruchter, Giám đốc nghiên cứu tại Google DeepMind, cảnh báo rằng “có rất nhiều điều phải xảy ra trước khi một mô hình có thể được triển khai trong thế giới thực, nhưng chúng tôi coi đó là một cách để đào tạo các mô hình hiệu quả hơn và tăng độ tin cậy của chúng”.

Sự phát triển của các mô hình thế giới là một cuộc đua marathon chứ không phải chạy nước rút. Nó đòi hỏi sự đầu tư to lớn vào nhân tài, dữ liệu và sức mạnh tính toán. Với sự hỗ trợ của Nvidia và tầm nhìn của Elon Musk, xAI hiện là đối thủ đáng gờm trong cuộc đua có tính cạnh tranh cao nhằm xây dựng tương lai của trí tuệ nhân tạo.

Categories: IT Info