Google DeepMind ujawnił Genie 3, nowy model AI, który buduje grywalne światy 3D z prostych poleceń tekstowych. Ogłoszony we wtorek system tworzy te interaktywne środowiska w czasie rzeczywistym, co jest głównym krokiem w stosunku do poprzedniej wersji.

Ten ruch sygnalizuje strategiczne przyspieszenie w wyścigu o budowanie fundamentalnych modeli światowych. DeepMind postrzega tę technologię jako podstawową część swojej ścieżki do sztucznej inteligencji ogólnej (AGI). Testując agentów w niezliczonych nowych światach, laboratorium ma na celu zbudowanie sztucznej inteligencji, która może obsługiwać złożone, rzeczywiste zadania.

Ogłoszenie to następuje powstawanie wyspecjalizowanego zespołu modeli światowych w DeepMind na początku tego roku. Podkreśla wyraźne zaangażowanie w tworzenie sztucznej inteligencji, które rozumie i symuluje rzeczywistość fizyczną, wraz z przyszłymi aplikacjami w grach, projektowaniu i robotyce.

Genie 3 stanowi znaczący skok techniczny w stosunku do swojego poprzednika, Genie 2, przechodząc od obiecującego dowodu koncepcji na znacznie bardziej zdolną platformę. Nowy model generuje interaktywne światy w rozdzielczości 720p, główne ulepszenie z wyjścia 360p jego prekursora. Działa również w płynie 24 klam na sekundę, dzięki czemu doświadczenie w czasie rzeczywistym jest gładsze i bardziej wciągające.

Być może najbardziej krytycznym postępem jest wydłużony czas interakcji. Podczas gdy symulacje Genie 2 często zaczęły wykazywać artefakty wizualne i degradować po zaledwie 10 do 20 sekund, Genie 3 może utrzymać spójny i spójny wizualnie świat przez „kilka minut”, “

Nagłówkowa innowacja w tej wersji jest tym, co laboratorium nazywa „szybkimi wydarzeniami na świecie”. Ta funkcja pozwala użytkownikowi dynamicznie zmieniać symulację za pomocą nowych poleceń tekstowych po utworzeniu początkowego świata. Na przykład użytkownik może eksplorować wygenerowane środowisko, a następnie wydać polecenie wprowadzenia stada jelenia lub nagle zmianę warunków pogodowych, które model będzie wykonywał w czasie rzeczywistym.

, jak wyjaśnili badacze głębokości, ulepszając kontakty z dyskusyjnością. To przekształca symulację z przestrzeni statycznej w responsywną i edytowalną, kluczowym krokiem do tworzenia bardziej złożonych i przydatnych scenariuszy.

Uruchamianie tych ulepszeń jest zwiększona zdolność do utrzymania spójności środowiska, co stanowi notoryczne wyzwanie dla generatywnych modeli światowych. Deepmind nazywa to „wyłaniającą się zdolnością”, w której model pamięta elementy poza ekranem do minuty. Zapobiega to wstrząsającym wizualnym artefakcjom, że nękane wcześniejsze modele, takie jak Oasis , które często traciły ścieżkę sceny podczas interakcji.

architektura modelu, że projekt jest projektem, który jest projektem. centralne dla jego sukcesu. Shlomi Fruchter, dyrektor ds. Badań w Google Deepmind, opisał go jako „pierwszy interaktywny model świata ogólnego przeznaczenia w czasie rzeczywistym”.

wyjaśnił dalej mechanikę, stwierdzając: „Model jest autoregresywny, co oznacza, że generuje jedną ramkę na raz. Ten sekwencyjny, oparty na pamięci proces pozwala Genie 3 na budowę intuicyjnego i spójnego zrozumienia fizyki bez polegania na twardym silniku.

Ścieżka do AGI: Głęboko szkolenia dla inteligentniejszej AI

, podczas gdy perspektywa wygenerowania światów gier wideo jest kompleksowa, jest kompleksowa Badania AI. Laboratorium pozycjonuje model jako krytyczne narzędzie do szkolenia uosabionych agentów AI-systemy takie jak roboty lub wirtualne awatary zaprojektowane do działania w przestrzeniach fizycznych.

Najwyższym celem jest przyspieszenie postępu w kierunku sztucznej inteligencji ogólnej (AGI) poprzez rozwiązanie jednego z jego podstawowych wyzwań: uczenie AI w celu bezpiecznego i skutecznego poruszania się nieredycyjnego środowiska. Wąskie gardło w robotyce i rozwoju sztucznej inteligencji. Agenci szkoleniowe w prawdziwym świecie są powolne, drogie i potencjalnie niebezpieczne. Modele światowe, takie jak Genie 3, oferują rozwiązanie, zapewniając bezpieczną, skalowalną i nieskończenie zmienną piaskownicę do nauki.

Jack Parker-Holder, naukowca ds. Zespołu ds. Otwartości Deepmind, w których scenariusze scenariusze są szczególnie wyzwań, stwierdzając: „Modele świata są kluczowe na ścieżce do AGI. Niekończąca się różnorodność scenariuszy „What If”, Genie 3 można wykorzystać do nauczania systemów AI, jak radzić sobie z sytuacjami, które nie są objęte ich początkowym szkoleniem. Na przykład, jak zauważył dyrektor ds. Badań DeepMind, można go wykorzystać do wyszkolenia samochodu samojezdnego, jak nagle zareagować na pieszego, bez konieczności ryzykowania realnego kolizji.

Ta zdolność do symulacji kontrfaktów pozwala agentowi na uczenie się od doświadczenia, dostosować się do nowych wyzwań i rozwinąć bardziej wytrzymałe zrozumienie przyczyny i skutku. Genie 3 z

Ta strategia umieszcza Google w bezpośredniej konkurencji z rywalami takimi jak meta, która rozwija własne światowe modele, takie jak V-Jepa 2 dla robotyki. Podstawowym przekonaniem dzielonym w branży jest to, że sztuczna inteligencja musi nauczyć się „myśleć” i planować w dokładnej wewnętrznej symulacji rzeczywistości, zanim będzie można zaufać, aby niezawodnie działać w świecie fizycznym. Zasugerował, że przemysł nie miał jeszcze „poruszania się 37 momentu dla wcielonych agentów”, w którym mogą „faktycznie podjąć nowe działania w prawdziwym świecie.”

Odnosi się to do słynnego i genialnego ruchu alfago Deepmind, który zasygnalizował nowy paradygmat maszyny. W przypadku ucieleśnionej AI taki moment pozostaje ostatecznym, ale nie dopuszczonym, przełomowym, że modele światowe, takie jak Genie 3, zostały zaprojektowane do jednego dnia.

Preview badawczy z ograniczeniami świata rzeczywistego

, DeepMind jest kandydata na bieżąco Genie 3. Model jest wydawany jako „ograniczony podgląd badań” dla niewielkiej grupy naukowców i twórców, a nie ogółu społeczeństwa. To ostrożne podejście odzwierciedla początkowe etap technologii.

Kluczowe ograniczenia obejmują ograniczone miejsce działania dla agentów w ramach symulacji. Ponadto model zmaga się z dokładnym renderowaniem tekstu i nie może jeszcze symulować złożonych interakcji między wieloma niezależnymi agentami, jak szczegółowo opisano w jego dokumentacji.

Czas trwania symulacji, choć ulepszony, jest nadal daleko od godzin potrzebnych do treningu agenta kompleksowego. Frucher przyznał się do drogi, zauważając: „Istnieje wiele rzeczy, które muszą się wydarzyć, zanim model będzie mógł zostać wdrożony w prawdziwym świecie, ale postrzegamy to jako sposób na bardziej wydajne szkolenie modeli i zwiększenie ich niezawodności”. Podkreśla to obecną rolę modelu jako narzędzia badawczego, a nie produkt wdrażalny.

To zmierzone wydanie pozwala DeepMind na gromadzenie informacji zwrotnej i lepsze zrozumienie ryzyka związanego z tak potężnymi narzędziami generatywnymi. Podkreśla ogromne wyzwania techniczne, które pozostają w budowaniu sztucznej inteligencji, które mogą naprawdę odzwierciedlać złożoność naszego świata.