Google DeepMind ujawniło w czwartek SIMA 2, nowego agenta AI korzystającego z modelu Gemini do nauki i działania w grach wideo 3D. W przeciwieństwie do swojej poprzedniczki, SIMA 2 potrafi wyznaczać cele wyższego szczebla, rozmawiać z użytkownikami i uczyć się nowych umiejętności.
Szkoliła się w popularnych grach, takich jak Goat Simulator 3, a nawet może grać w światach, jakich nigdy wcześniej nie widziała. Projekt DeepMind jest kluczowym krokiem w kierunku osiągnięcia celu, jakim jest zbudowanie ogólnej sztucznej inteligencji. Laboratorium ma nadzieję, że umiejętności zdobyte w grach pewnego dnia zasilą pomocne roboty w prawdziwym świecie.
Od naśladowcy instrukcji do towarzysza rozumowania
Dzięki osadzeniu modelu Gemini w swoim rdzeniu, SIMA 2 wykracza poza proste polecenia. Jej poprzedniczka, oryginalna SIMA wprowadzona w marcu 2024 r., była kluczowym pierwszym krokiem, ponieważ nauczyła się wykonywania ponad 600 umiejętności związanych z podążaniem za językiem, takich jak „wspinanie się po drabinie” w różnych wirtualnych światach.
Agent działał, obserwując ekran i używając wirtualnej klawiatury i myszy, tak samo jak zrobiłby to ludzki gracz. SIMA 2 opiera się na tym fundamencie, ale dodaje krytyczną warstwę poznawczą, ewoluując od narzędzia do interaktywnego partnera.
Teraz agent może zrozumieć nadrzędny cel użytkownika i uzasadnienie kroków niezbędnych do jego osiągnięcia.
To przekształca interakcję z wydawania poleceń we współpracę z towarzyszem.
„Gry są siłą napędową badań agentów od dłuższego czasu” – Joe Marino, naukowiec w Google DeepMind podczas konferencji prasowej.
Integracja Gemini pozwala SIMA 2 opisać swoje intencje i wyjaśnić swoje działania, dzięki czemu proces jest bardziej przejrzysty i interaktywny dla użytkownika.
[treść osadzona]
Szkolenie obejmowało połączenie filmów demonstracyjnych z udziałem ludzi i etykiet generowanych przez Gemini. DeepMind nawiązał współpracę z wieloma twórcami gier, w tym z Coffee Stain (Valheim, Satisfactory, Goat Simulator 3), Hello Games (No Man’s Sky) i Tuxedo Labs (Teardown), aby zbuduj zróżnicowany poligon.
Ekspozycja na różne gatunki i mechaniki gier jest kluczem do stworzenia wszechstronnego agenta, nie powiązanego z zasadami jednego środowiska.
Cykl cnoty: samodoskonalenie w generowanych światach
Jednym z najważniejszych osiągnięć SIMA 2 jest jej zdolność do samodzielnego doskonalenia. Po początkowej fazie uczenia się na podstawie demonstracji z ludźmi agent może wejść w pętlę samodoskonalenia.
Ćwiczy w nowych grach poprzez samodzielną zabawę, stosując metodę prób i błędów oraz otrzymując informacje zwrotne od modelu Gemini w celu udoskonalenia swoich umiejętności.
Ten proces pozwala mu opanowywać nowe zadania bez konieczności stosowania dodatkowych danych generowanych przez ludzi, co jest kamieniem milowym w kierunku skalowalnego uczenia się.
Aby przesuwać granice tej możliwości, DeepMind połączył SIMA 2 z SIMA 2 z kolejny z ambitnych projektów: Genie 3.
Genie 3 to model świata, który może generować nowe, grywalne środowiska 3D za pomocą prostego komunikatu tekstowego. Jego architektura została zaprojektowana z myślą o spójności i, jak wyjaśnił dyrektor ds. badań Shlomi Fruchter, „jest autoregresywna, co oznacza, że generuje jedną klatkę na raz. Musi spojrzeć wstecz na to, co zostało wygenerowane wcześniej, aby zdecydować, co będzie dalej”.
Generowanie sekwencyjne jest niezbędne do tworzenia stabilnych światów, w których agent może się uczyć.
Kiedy SIMA 2 została umieszczona w tych zupełnie nowych światach wygenerowanych przez sztuczną inteligencję, wykazała niezwykłą zdolność do adaptacji i orientowania się, i wykonuj instrukcje użytkownika.
Ta synergia tworzy potężne dojo szkoleniowe. Genie 3 może generować niemal nieskończoną różnorodność scenariuszy, zapewniając SIMA 2 nieskończony program nauczania, z którego można się uczyć.
Strategia DeepMind polegająca na budowaniu solidniejszej i elastycznej sztucznej inteligencji opiera się na tym podejściu.
„Uważamy, że modele świata są kluczowe na drodze do AGI, szczególnie w przypadku agentów wcielonych, gdzie symulowanie scenariuszy ze świata rzeczywistego jest szczególnie trudne” – wyjaśnił Jack Parker-Holder, naukowiec w zespole.
Symulowanie niezliczonych sytuacji to bezpieczniejszy i skuteczniejszy sposób nauczania sztucznej inteligencji o złożoności interakcji.
Poza grą: droga do ucieleśnionego AGI i jej przeszkody
Chociaż bezpośrednim kontekstem są gry wideo, ostateczną ambicją DeepMind jest świat fizyczny. Umiejętności, których uczy się SIMA 2 – nawigacja, obsługa narzędzi, planowanie i współpraca – to podstawowe elementy składowe ucieleśnionej inteligencji.
Firma postrzega te badania jako bezpośrednią ścieżkę w kierunku stworzenia zdolnych asystentów AI i robotów, które mogą bezpiecznie i skutecznie działać w środowisku człowieka.
„SIMA 2 potwierdza, że sztuczna inteligencja przeszkolona w zakresie szerokich kompetencji… może z powodzeniem ujednolicić możliwości wielu wyspecjalizowanych systemów w jednego spójnego, ogólnego agenta” – stwierdził zespół SIMA w swoim ogłoszenie, przedstawiające projekt jako połączenie wyspecjalizowanych systemów w jednego, spójnego agenta.
Jednak droga od wirtualnych światów do rzeczywistości jest pełna wyzwań. Eksperci w tej dziedzinie, doceniając osiągnięcia techniczne, zalecają ostrożność co do bezpośredniego zastosowania tych umiejętności.
Julian Togelius, badacz sztucznej inteligencji na Uniwersytecie Nowojorskim, podkreślił trudność tego podejścia, zauważając, że „gra w czasie rzeczywistym wyłącznie na podstawie danych wizualnych to „tryb trudny”. Agent musi interpretować surowe piksele bez żadnych danych gry, co jest zadaniem wymagającym dużej mocy obliczeniowej i podatnym na błędy.
Ponadto pojawiają się pytania, jak dobrze te wyuczone zachowania przeniosą się do robotyki.