Google DeepMind rozpoczął nową inicjatywę mającą na celu stworzenie zaawansowanych systemów sztucznej inteligencji (AI) zdolnych do symulowania środowisk fizycznych i wirtualnych.

Tim Brooks, były badacz w OpenAI, obecnie kieruje pracami, które skupiają się na temat „modeli świata” — systemów sztucznej inteligencji zaprojektowanych do przewidywania dynamiki świata rzeczywistego i interakcji z nią. W poście na platformie X Brooks stwierdził: „DeepMind ma ambitne plany stworzenia ogromnych modeli generatywnych, które symulują świat”.

Ten projekt jest blisko powiązany z szerszą strategią Google mającą na celu rozwój sztucznej inteligencji ogólnej (AGI). Modele świata są postrzegane jako fundamentalny krok w kierunku osiągnięcia AGI, formy sztucznej inteligencji zdolnej do wykonania dowolnego zadania intelektualnego, jakie może wykonać człowiek.

Nowy zespół będzie współpracował z istniejącymi projektami DeepMind, w tym z multimodalną sztuczną inteligencją Gemini model, platformę generowania wideo Veo oraz Genie, generator środowiska do interaktywnych symulacji 3D.

DeepMind ma ambitne plany stworzenia ogromnych modeli generatywnych symulujących świat. Zatrudnię do nowego zespołu z tą misją. Przyjdź i buduj z nami!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl

— Tim Brooks (@_tim_brooks) 6 stycznia 2025

Modelowanie świata AIing

Modele świata stanowią znaczące odejście od tradycyjnych systemów sztucznej inteligencji, które przede wszystkim reagują na wprowadzane dane. Zamiast tego modele te symulują złożone środowiska, analizując dane multimodalne, takie jak tekst, obrazy i filmy. Ta funkcja predykcyjna umożliwia zastosowanie w różnych dziedzinach, od szkoleń z zakresu robotyki po interaktywne gry.

opis stanowiska

a> dla nowego zespołu podkreśla szersze cele: „Wierzymy, że skalowanie szkolenia wstępnego na podstawie danych wideo i multimodalnych znajduje się na krytycznej ścieżce do sztucznej inteligencji ogólnej. Modele świata będą wspierać wiele dziedzin, takich jak wnioskowanie i symulacja wizualna, planowanie dla wcielonych agentów i interaktywna rozrywka w czasie rzeczywistym.”

Symulując dynamikę świata rzeczywistego, modele świata zapewniają wirtualną piaskownicę do testowania i uczenie się, zwiększanie zdolności sztucznej inteligencji do adaptacji i reagowania w rzeczywistych scenariuszach.

Projekt Genie firmy DeepMind oferuje wgląd w możliwości. Uruchomiony w grudniu Genie 2 może generować w oparciu o grywalne światy 3D na podpowiedziach użytkowników Demonstracje obejmowały symulację wyprawy żeglarskiej oraz western w tematyce cyberpunkowej, prezentujący wszechstronność platformy w tworzeniu interaktywnych środowisk.

Interaktywna demonstracja symulacji sztucznej inteligencji klatka po klatce stworzona za pomocą Google Genie 2 (Źródło: Google)

Praca nad modelami świata jest z natury złożona i wymaga najnowocześniejszej infrastruktury i ogromnych zasobów obliczeniowych Oferta pracy DeepMind na stanowisko inżyniera ds. badań w modelowaniu świata opisuje związane z tym wyzwania techniczne. Obowiązki obejmują:

Szkolenie wielkoskalowych transformatorów multimodalnych zdolnych do analizowania różnych typów danych. Tworzenie infrastruktury dla potoków danych wideo, zapewniając skuteczną selekcję i adnotacje. Optymalizacja systemów wnioskowania pod kątem aplikacji działających w czasie rzeczywistym, umożliwiająca płynną interakcję. Opracowywanie ilościowych wskaźników oceny w celu pomiaru dokładności fizycznej i inteligencji. Odkrywanie transformatorów o bardzo długim kontekście, które pozwalają sztucznej inteligencji analizować rozszerzone sekwencje danych.

Nacisk na skalowanie odzwierciedla zaangażowanie w zapewnienie solidności i wydajności tych systemów. Filozofia DeepMind, podsumowana jako kluczowe obowiązki w opisie stanowiska, podkreśla to podejście:

„Wdrażanie podstawowej infrastruktury i prowadzenie badań w celu zbudowania generatywnych modeli świata fizycznego. Rozwiązuj podstawowe problemy w celu szkolenia symulatorów świata na masową skalę, opracowuj metryki i prawa skalowania dla inteligencji fizycznej, selekcjonuj i dodawaj adnotacje do danych szkoleniowych, umożliwiaj interaktywne generowanie w czasie rzeczywistym i badaj integrację modeli świata z modelami języka multimodalnego. Wyciągnij gorzką lekcję i szukaj prostych metod, które można skalować, kładąc nacisk na mocne systemy i infrastrukturę.”

Zastosowania i implikacje

Modele światowe mają różnorodne zastosowania na całym świecie W robotyce umożliwiają tworzenie wirtualnych środowisk, w których maszyny mogą uczyć się nawigacji i manipulowania obiektami. Skraca to czas i koszty testów fizycznych.

Genesis to platforma do symulacji fizyki typu open source opracowana przez firmę Uniwersytet Carnegie Mellon i prywatny badacze branżowi pokazuje, jak systemy sztucznej inteligencji można szkolić pod kątem fizyki 3D w całkowicie wirtualnym środowisku znacznie szybciej niż w świecie rzeczywistym.

W grach modele świata zapewniają wciągające wrażenia w dynamicznych, responsywnych środowiskach ma potencjał w opiece zdrowotnej, gdzie symulacje mogłyby pomóc w diagnostyce i planowaniu spersonalizowanego leczenia.

Pomimo obietnic, postęp ten wiąże się z wyzwaniami etycznymi, zwłaszcza dotyczącymi przemieszczania pracowników. Organizacja Animation Guild szacuje, że do 2026 r. technologie sztucznej inteligencji mogą mieć wpływ na ponad 100 000 stanowisk pracy w USA w branży filmowej, telewizyjnej i animowanej.

Pojawiają się również kwestie prawne, ponieważ niektóre światowe modele opierają się na nielicencjonowanych materiałach z gier wideo szkolenie. Chociaż Google zapewnia, że ​​jego praktyki są zgodne z warunkami korzystania z usługi YouTube, nie ujawnił konkretnych źródeł danych.

Konkurencja w przestrzeni AI

Stanowisko inicjatywy DeepMind Google w konkurencyjnym wyścigu z innymi głównymi graczami. Nowa platforma Cosmos firmy Nvidia koncentruje się na fizycznej sztucznej inteligencji i robotyce, podczas gdy World Labs Fei-Fei Li opracowuje wielkoskalowe modele świata z inteligencją przestrzenną dla różnorodne zastosowania. Startupy takie jak Odyssey i Decart również robią rozwija się, przyczyniając się do rosnącej dziedziny symulacji świata AI.

Dostęp DeepMind do Gemini AI, Veo i Genie oferuje wyjątkową korzyść. Integrując te systemy, zespół dąży do stworzenia sztucznej inteligencji, która nie tylko przewiduje wyniki, ale także dostosowuje się do zmieniających się scenariuszy w czasie rzeczywistym. Zdolność ta może mieć kluczowe znaczenie dla osiągnięcia AGI, gdzie kluczową rolę odgrywa zdolność adaptacji i generalizacja.

Wizja DeepMind dotycząca AGI

Chociaż sztuczna inteligencja ogólna pozostaje odległa, ale możliwa do osiągnięcia celu, modele świata stanowią kluczowy krok na tej ścieżce. Symulując środowiska fizyczne i wirtualne, modele te stanowią podstawę dla systemów sztucznej inteligencji, które potrafią rozumować, planować i wchodzić w interakcje jak ludzie.

Opis stanowiska inżyniera ds. badań oddaje istotę wizji DeepMind: „Modele świata będą zasilać wielu dziedzinach, takich jak wnioskowanie wizualne i symulacja, planowanie z udziałem wcielonych agentów oraz interaktywna rozrywka w czasie rzeczywistym.”

Categories: IT Info