Meta wydał V-JEPA 2, zaawansowany system AI, który uczy się z wideo, w strategicznym nacisku, aby dać robotom formę fizycznego zdrowego rozsądku. Firma ogłosiła 11 czerwca, że „światowy model światowy” open source ma na celu zrozumienie i przewidywanie interakcji w świecie rzeczywistym, co jest kluczowym krokiem w kierunku budowania bardziej zdolnych i adaptacyjnych inteligentnych agentów.
Ta pozycja MOVE META bezpośrednio z rywalami, takimi jak Google i inne specjalistyczne laboratoria w coraz bardziej konkurencyjnym wyścigu w celu stworzenia ułożonej AI. Budując wewnętrzną symulację rzeczywistości, modele te pozwalają sztucznej inteligencji „myśleć”, zanim działa, planując złożone zadania w bardziej ludzki sposób. W przypadku meta projektu jest kluczową częścią jego długoterminowej wizji zaawansowanej inteligencji maszyn, z potencjalnymi aplikacjami, od robotyki przemysłowej po okulary rzeczywistości rozszerzonej, które firma od dawna rozwija.
Jakie są modele światowe?
U podstaw strategii meta jest koncepcja „modelu światowego”, rodzaju generatywnego systemu AI, który uczy się wewnętrznych reprezentacji środowiska, w tym jego fizyki i dynamiki przestrzennej. W przeciwieństwie do dużych modeli językowych, które przewidują następne słowo w zdaniu, modele światowe próbują przewidzieć przyszłe stany samego świata. Model światowy obserwuje swoje otoczenie i przewiduje, co może stać się dalej, o wiele bardziej złożone zadanie niż przewidywanie tekstowe.
Ta zdolność pozwala maszynom symulować potencjalne działania i ich konsekwencje wewnętrznie przed próbą ich w rzeczywistości. Jako Juan Bernabé-moreno, dyrektor IBM Research w Europie, wyjaśniono , „modele światowe zezwalają na maszyny do planowania ruchów i interakcji w spalaniach symulowanych, często nazywane„ cyfrowe “”, zanim próbują ich w świecie fizycznym. Zmniejsza kosztowne próby i błędy, łagodzi zagrożenia bezpieczeństwa i przyspiesza uczenie się dla zadań, takich jak montaż przemysłowy, logistyka magazynowa lub robotyka zorientowana na usługi. „
To dramatycznie przyspiesza naukę i poprawia bezpieczeństwo, torując drogę dla robotów, które mogą przemieszczać niezmienne środowiska. Dowie się
Inteligencja V-Jepa 2 jest wykupiona w dwustopniowym procesie szkoleniowym. Po pierwsze, buduje fundamentalne zrozumienie świata, analizując ogromny zestaw danych o ponad miliona godzin wideo i milion zdjęć.
jej architektura, znana jako wspólna architektura predykcyjna (JEPA), uczy się, przewidując brakujące lub zamaskowane części wideo w abstrakcyjnej, konceptualnej przestrzeni, a nie na miejscu, a nie na odzyskaniu pikselu. Ta wydajność pozwala modelowi skupić się na uczeniu się koncepcji wysokiego poziomu na temat interakcji obiektowych i ruchu.
Drugi etap sprawia, że model jest przydatny dla robotyki. Tutaj jest dostosowany do danych warunkowych, przy użyciu zaledwie 62 godzin wejść wideo i sterowania z Open-Source Droid Dataset . Uczy modelu łączenia konkretnych działań z ich fizycznymi wynikami, co powoduje system, który według Meta może być używany do „robota zerowego strzału do interakcji z nieznanymi obiektami w nowych środowiskach”.
Jednak a analiza techniczna pierwszych modeli V-jepa Zauważyła, że jego poleganie na bardzo krótkim klipie
Zatłoczone pole inteligencji fizycznej
Ogłoszenie Meta nie zdarza się w próżni. Push, aby stworzyć podstawowe modele robotyki, jest kluczowym polem bitwy dla głównych laboratoriów technologicznych. W marcu Google Deepmind zaprezentował swoje modele robotyki Gemini, które podobnie integrują wizję, język i działanie, aby umożliwić robotom uczenie się przy minimalnym szkoleniu.
Krytyczną technologią uzupełniającą jest hiperrealistyczna symulacja. Platformy takie jak Symulator AI Genesis mogą szybko symulować środowiska fizyczne, które są niezbędne do bezpiecznego i wydajnego szkolenia tych modeli. Jim Fan, badacz zaangażowany w projekt, żywo opisał jego moc: „Jedna godzina obliczeniowa daje 10-letnie doświadczenie treningowe. Tak było, jak neo był w stanie nauczyć się sztuk walki w blinku w Matix Dojo”. Podkreśla to ogólnokrajowe skupienie się na przezwyciężeniu wąskiego gardła danych wymaganych do szkolenia AI w zakresie bliskich odmian świata fizycznego. Zgodnie z jego ostatnią strategią w sztucznej inteligencji, meta jest wypuszcza V-Jepa 2 i powiązane z nimi narzędzia. Kod modelu to Dostępne na Github , z punktami kontrolnymi Dostępne na przytulaniu twarzy . Udostępniając technologię, Meta ma nadzieję na wspieranie społeczności, która może przyspieszyć postęp. Jednak programiści szukający łatwej integracji mogą stawić czoła przeszkodom, jak dyskusje społeczne na GitHub wskazują, że obecnie istnieją Brak dedykowanych, użytkowników, friendly API . Rygorystycznie sprawdź, jak dobrze modele AI rozum dotyczący fizyki. W swoim ogłoszeniu Meta zauważył znaczną lukę w wydajności między ludźmi a nawet najlepszymi modelami w tych zadaniach, podkreślając wyraźny kierunek potrzebnej poprawy. Postępy w stosunku do tych testów porównawczych można śledzić na A , Zapewniając przejrzystą miarę tego, jak blisko pole jest osiągnięcia prawdziwej inteligencji fizycznej. Otwarta strategia Meta, w połączeniu z publicznym testem porównawczym ograniczeń jego modeli, podkreśla ogromną trudność związaną z nadchodzącym zadaniem. Podczas gdy V-Jepa 2 jest znaczącym krokiem, oświetla także długą drogę do stworzenia zaawansowanej inteligencji maszynowej, która może płynnie nawigować i wchodzić w interakcje z naszym złożonym światem fizycznym. Otwarte podejście do trudnego problemu