Tencent khổng lồ công nghệ Trung Quốc Tencent đã phát hành Hunyuanworld-Voyager, một mô hình AI mới biến một bức ảnh duy nhất thành một thế giới 3D dễ khám phá. Công ty mở công cụ vào ngày 2 tháng 9. Nó tạo ra các video phù hợp 3D mà người dùng có thể di chuyển qua, biến Tencent thành một đối thủ hàng đầu trong cuộc đua xây dựng các mô hình AI World. Hệ thống cần phần cứng mạnh mẽ, yêu cầu GPU có ít nhất 60GB bộ nhớ. Giấy phép mô hình cũng ngăn chặn việc sử dụng nó ở châu Âu và Vương quốc Anh. Bản phát hành này là một phần của hệ sinh thái Hunyuan AI rộng hơn của Tencent, bao gồm các mô hình để dịch và lý luận. Đầu ra kép này là rất quan trọng, vì nó cho phép tái tạo 3D trực tiếp của cảnh được tạo. Người dùng có thể xác định đường dẫn camera với các lệnh đơn giản như chuyển tiếp”hoặc Turn Turn_left”để điều hướng môi trường, khám phá một hình ảnh tĩnh như một không gian động. Một thành phần khuếch tán video phù hợp trên thế giới”đảm bảo video được tạo vẫn mạch lạc. Trong khi đó, A ‘Thăm dò thế giới dài Những người chơi lớn khác như Google Deepmind, đang phát triển các mô hình thế giới của riêng mình như Genie 3.

Trong khi các mục tiêu tương tự nhau, chiến lược cơ bản phản ánh sự tập trung vào ứng dụng thực tế. Như một nhà khoa học DeepMind lưu ý, chúng tôi nghĩ rằng các mô hình thế giới là chìa khóa trên con đường đến AGI, đặc biệt là đối với các tác nhân được thể hiện, trong đó mô phỏng các kịch bản trong thế giới thực đặc biệt khó khăn.”Trên Stanford-do Stanford phát triển WorldScore Benchmark , Voyager đạt được điểm tổng thể hàng đầu là 77,62. Điều này đặt nó trước các mô hình cạnh tranh như Wonderworld (72,69) và cogvideox-I2V (62,15), theo