chinesisches Tech-Riese Tencent hat HunyuanWorld-Voyager veröffentlicht, ein neues KI-Modell, das ein einziges Foto in eine explorreiche 3D-Welt verwandelt. Das Unternehmen, das das Tool am 2. September Open-Sourcut hat. Es schafft 3D-konsistente Videos, die Benutzer bewegen können, und macht Tencent im Rennen zu einem Top-Rivalen im Rennen, um AI-Weltmodelle zu erstellen. Benötigt leistungsstarke Hardware, die eine GPU mit mindestens 60 GB Speicher benötigt. Die Lizenz des Modells blockiert auch die Verwendung in Europa und Großbritannien. Diese Veröffentlichung ist Teil des breiteren Hunyuan-AI-Ökosystems von Tencent, das Modelle für Übersetzung und Argumentation enthält. Diese doppelte Ausgabe ist kritisch, da sie die direkte 3D-Rekonstruktion der erzeugten Szene ermöglicht. Benutzer können einen Kamera-Pfad mit einfachen Befehlen wie”Forward”oder”Turn_Left”definieren, um die Umgebung zu navigieren und ein statisches Bild als dynamischen Raum zu untersuchen. Eine Komponente „Weltkonsistentes Videodiffusion“ sorgt dafür, dass das generierte Video kohärent bleibt. In der Zwischenzeit ist ein “Langzeit-Explorations-System”-System”Long-Range World Exploration”verwendet. Spieler wie Google DeepMind, die ihre eigenen Weltmodelle wie Genie 3 entwickeln. Wie ein DeepMind-Wissenschaftler feststellte: „Wir glauben, dass Weltmodelle für den Weg zu AGI von entscheidender Bedeutung sind, insbesondere für verkörperte Agenten, in denen die Simulation realer Weltszenarien besonders schwierig ist. Auf dem von Stanford entwickelten WorldScore Benchmark erhielt Voyager eine Top-Gesamtpunktzahl von 77,62. This places it ahead of competing models like WonderWorld (72.69) and CogVideoX-I2V (62.15), according to Tencent’s published Ergebnisse .

Das Modell war besonders in der Objektkontrolle (66.92), der Stilkonsistenz (84,89) und der subjektiven visuellen Qualität (71.09) übertroffen. Während es bei 85,95 in der Kamera steuerte, war es in dieser Kategorie Zweiter für Wonderworlds 92.98. Diese Detailebene zeigt ein sehr fähiges, wenn auch nicht perfektes System.

Dieser Erfolg wird weitgehend auf seine Trainingsdaten zurückgeführt. Tencent erstellte eine benutzerdefinierte Datenmotor, die automatisch über 100.000 Videoclips aus realer Filmmaterial und synthetischen Rendern von Unreal Engine verarbeitet hat. Diese automatisierte Pipeline löst einen wichtigen Engpass für Branchen und beseitigt die Notwendigkeit langsamer und teurer manueller 3D-Annotationen. Ein Tencent Executive erklärte kürzlich diesen Fokus und erklärte: „Chinesische Unternehmen priorisieren im Allgemeinen die Effizienz und die Nutzung der Nutzung der GPU-Server. Und das beeinträchtigt nicht unbedingt die ultimative Wirksamkeit der entwickelten Technologie. Die Hardwareanforderungen sind erheblich und fordern mindestens 60 GB GPU-Speicher für eine Auflösung von 540p, 80 GB empfohlen. Diese hohe Barriere begrenzt ihre Verwendung für gut finanzierte Forschungslabors und große Unternehmen trotz seiner Open-Source-Art effektiv.

Um diese Leistungsanforderungen zu erfüllen, unterstützt das System die parallele Verarbeitung in mehreren GPUs unter Verwendung des