Google DeepMind đã bắt đầu một sáng kiến ​​mới nhằm tạo ra các hệ thống trí tuệ nhân tạo (AI) tiên tiến có khả năng mô phỏng môi trường vật lý và ảo.

Tim Brooks, cựu nhà nghiên cứu tại OpenAI, hiện đang dẫn đầu nỗ lực này, tập trung vào về “các mô hình thế giới”—các hệ thống AI được thiết kế để dự đoán và tương tác với các động lực trong thế giới thực. Trong một bài đăng trên X, Brooks tuyên bố: “DeepMind có những kế hoạch đầy tham vọng nhằm tạo ra các mô hình tổng quát khổng lồ mô phỏng thế giới.”

Dự án này gắn liền với Chiến lược lớn hơn của Google nhằm thúc đẩy trí tuệ nhân tạo chung (AGI). Các mô hình thế giới được coi là bước nền tảng để đạt được AGI, một dạng AI có khả năng thực hiện bất kỳ nhiệm vụ trí tuệ nào mà con người có thể làm được.

Nhóm mới sẽ cộng tác với các dự án DeepMind hiện có, bao gồm cả AI đa phương thức Gemini model, nền tảng tạo video Veo và Genie, công cụ tạo môi trường cho mô phỏng 3D tương tác.

DeepMind có kế hoạch đầy tham vọng nhằm tạo ra các mô hình tổng hợp khổng lồ mô phỏng thế giới. Tôi đang tuyển dụng một đội mới với nhiệm vụ này. Hãy cùng xây dựng với chúng tôi!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl

— Tim Brooks (@_tim_brooks) Ngày 6 tháng 1 năm 2025

Mô hình thế giới AIing

Các mô hình thế giới thể hiện sự khác biệt đáng kể so với các hệ thống AI truyền thống, vốn chủ yếu phản ứng với dữ liệu đầu vào. Thay vào đó, các mô hình này mô phỏng các môi trường phức tạp bằng cách phân tích dữ liệu đa phương thức, chẳng hạn như văn bản, hình ảnh và video. Khả năng dự đoán này cho phép ứng dụng trong nhiều lĩnh vực khác nhau, từ đào tạo về robot đến chơi trò chơi tương tác.

A mô tả công việc

a> cho nhóm mới nêu bật các mục tiêu rộng hơn: “Chúng tôi tin rằng việc mở rộng quy mô đào tạo trước trên video và dữ liệu đa phương thức đang trên con đường quan trọng hướng tới trí tuệ nhân tạo nói chung. Các mô hình thế giới sẽ hỗ trợ nhiều lĩnh vực, chẳng hạn như lý luận và mô phỏng trực quan, lập kế hoạch cho các tác nhân hiện thân và giải trí tương tác theo thời gian thực.”

Bằng cách mô phỏng động lực học trong thế giới thực, các mô hình thế giới cung cấp một hộp cát ảo để thử nghiệm và học hỏi, nâng cao khả năng thích ứng và ứng phó của AI trong các tình huống thực tế.

Dự án Genie của DeepMind mang đến cái nhìn thoáng qua về các khả năng, Ra mắt vào tháng 12, Genie 2 có thể tạo ra thế giới 3D có thể chơi được dựa trên lời nhắc của người dùng. Các cuộc trình diễn bao gồm mô phỏng chuyến thám hiểm bằng thuyền buồm và một trò chơi phương Tây theo chủ đề cyberpunk, thể hiện tính linh hoạt của nền tảng trong việc tạo ra môi trường tương tác.

Bản demo mô phỏng AI theo từng khung hình tương tác được tạo bằng Google Genie 2 (Nguồn: Google)

Công việc trên các mô hình thế giới vốn đã phức tạp, đòi hỏi công nghệ tiên tiến cơ sở hạ tầng và nguồn lực tính toán khổng lồ của DeepMind cho vai trò Kỹ sư nghiên cứu trong mô hình hóa thế giới nêu ra những thách thức kỹ thuật liên quan. Trách nhiệm bao gồm:

Đào tạo máy biến áp đa phương thức quy mô lớn có khả năng phân tích các loại dữ liệu đa dạng. Xây dựng cơ sở hạ tầng cho đường truyền dữ liệu video, đảm bảo quản lý và chú thích hiệu quả. Tối ưu hóa hệ thống suy luận cho các ứng dụng thời gian thực, cho phép tương tác liền mạch. Phát triển các số liệu đánh giá định lượng để đo lường độ chính xác về thể chất và trí thông minh. Khám phá các biến đổi ngữ cảnh siêu dài, cho phép AI phân tích các chuỗi dữ liệu mở rộng.

Sự nhấn mạnh vào việc mở rộng quy mô phản ánh cam kết làm cho các hệ thống này trở nên mạnh mẽ và hiệu quả. Triết lý của DeepMind, được tóm tắt là trách nhiệm chính trong bản mô tả công việc, nhấn mạnh cách tiếp cận này:

“Triển khai cơ sở hạ tầng cốt lõi và tiến hành nghiên cứu để xây dựng các mô hình tổng quát của thế giới vật chất. Giải quyết các vấn đề thiết yếu để đào tạo trình mô phỏng thế giới ở quy mô lớn, phát triển các số liệu và luật mở rộng cho trí tuệ vật lý, quản lý và chú thích dữ liệu đào tạo, cho phép tạo tương tác theo thời gian thực và nghiên cứu tích hợp các mô hình thế giới với các mô hình ngôn ngữ đa phương thức. Chấp nhận bài học cay đắng và tìm kiếm những phương pháp đơn giản có thể mở rộng quy mô, tập trung vào hệ thống và cơ sở hạ tầng mạnh mẽ.”

Ứng dụng và ý nghĩa

Các mô hình thế giới có ứng dụng đa dạng trên khắp Trong các ngành công nghiệp robot, chúng cho phép tạo ra môi trường ảo nơi máy móc có thể học cách điều hướng và thao tác với các vật thể. Điều này giúp giảm thời gian và chi phí thử nghiệm vật lý

Genesis, một nền tảng mô phỏng vật lý nguồn mở được phát triển bởi. Đại học Carnegie Mellon và các nhà nghiên cứu công nghiệp tư nhân, cho thấy hệ thống AI có thể được đào tạo về vật lý 3D trong môi trường hoàn toàn ảo nhanh hơn nhiều so với trong thế giới thực.

Trong trò chơi, các mô hình thế giới tạo ra trải nghiệm sống động với môi trường năng động, phản ứng nhanh. Công nghệ này cũng có tiềm năng trong lĩnh vực chăm sóc sức khỏe, nơi mô phỏng. có thể hỗ trợ chẩn đoán và lập kế hoạch điều trị cá nhân hóa.

Mặc dù hứa hẹn nhưng những tiến bộ này cũng đi kèm với những thách thức về mặt đạo đức, đặc biệt là liên quan đến việc di dời người lao động. Hiệp hội Hoạt hình ước tính rằng hơn 100.000 việc làm trong lĩnh vực điện ảnh, truyền hình và hoạt hình tại Hoa Kỳ có thể bị ảnh hưởng bởi công nghệ AI vào năm 2026.

Các vấn đề pháp lý cũng nảy sinh khi một số người mẫu thế giới dựa vào cảnh quay trò chơi điện tử không có giấy phép để sản xuất. đào tạo. Mặc dù Google khẳng định rằng các hoạt động của mình tuân thủ các điều khoản dịch vụ của YouTube nhưng Google chưa tiết lộ nguồn dữ liệu cụ thể.

Sự cạnh tranh trong không gian AI

Vị trí sáng kiến ​​của DeepMind Google trong một cuộc đua cạnh tranh với những người chơi lớn khác. Nền tảng Cosmos mới của Nvidia tập trung vào AI vật lý và robot, trong khi World Labs của Fei-Fei Li phát triển các mô hình thế giới quy mô lớn với trí tuệ không gian cho ứng dụng đa dạng. Các công ty khởi nghiệp như OdysseyDecart cũng đang tạo ra những bước tiến dài, góp phần vào lĩnh vực mô phỏng thế giới AI đang phát triển.

Khả năng truy cập của DeepMind vào Gemini AI, Veo và Genie mang lại một lợi thế độc nhất. Bằng cách tích hợp các hệ thống này, nhóm đặt mục tiêu tạo ra AI không chỉ dự đoán kết quả mà còn thích ứng với các tình huống thay đổi trong thời gian thực. Khả năng này có thể rất quan trọng để đạt được AGI, trong đó khả năng thích ứng và khái quát hóa là chìa khóa.

Tầm nhìn của DeepMind về AGI

Mặc dù trí tuệ nhân tạo nói chung vẫn còn là một điều xa vời nhưng có thể đạt được mục tiêu, các mô hình thế giới là một bước quan trọng trên con đường này. Bằng cách mô phỏng môi trường vật lý và ảo, các mô hình này cung cấp nền tảng cho các hệ thống AI có thể suy luận, lập kế hoạch và tương tác như con người.

Mô tả công việc của Kỹ sư nghiên cứu thể hiện bản chất tầm nhìn của DeepMind: “Các mô hình thế giới sẽ tạo nên sức mạnh nhiều lĩnh vực, chẳng hạn như lý luận và mô phỏng trực quan, lập kế hoạch cho các tác nhân được thể hiện và giải trí tương tác theo thời gian thực.”

Categories: IT Info