Meta har släppt V-JEPA 2, ett avancerat AI-system som lär sig av video, i en strategisk drivkraft för att ge robotar en form av fysisk sunt förnuft. Företaget tillkännagav den 11 juni att den öppna källkodens”världsmodell”är utformad för att förstå och förutsäga verkliga interaktioner, ett kritiskt steg mot att bygga mer kapabla och adaptiva intelligenta agenter.

Denna rörelse placerar meta direkt mot rivaler som Google och andra specialiserade laboratorier i de alltmer konkurrenskraftiga rasen för att skapa Embodied AI. Genom att bygga en intern simulering av verkligheten tillåter dessa modeller en AI att”tänka”innan den agerar och planerar komplexa uppgifter på ett mer mänskligt liknande sätt. For Meta, the project is a key part of its long-term vision for advanced machine intelligence, with potential applications ranging from industrial robotics to the augmented reality glasses the company has long been developing.

The V-JEPA 2 model representerar en betydande utveckling från sin föregångare V-JEPA. Medan den första versionen etablerade kärnbegreppet lärande av video, förbättras detta nya 1,2 miljarder-parametersystem specifikt för praktisk planering och kontroll, och syftar till att överbrygga klyftan mellan digital intelligens och den fysiska världen.

>

Vad är världsmodeller?

Kärnan i Metas strategi är begreppet en”världsmodell”, ett typ av generativt AI-system som lär sig interna representationer av en miljö, inklusive dess fysik och rumslig dynamik. Till skillnad från stora språkmodeller som förutsäger nästa ord i en mening försöker världsmodellerna förutsäga framtida stater i världen själv. En världsmodell observerar sin omgivning och förutser vad som kan hända därefter, en mycket mer komplex uppgift än textbaserad förutsägelse.

Denna kapacitet gör det möjligt för maskiner att simulera potentiella åtgärder och deras konsekvenser internt innan de försöker i verkligheten. As Juan Bernabé-Moreno, Director of IBM Research in Europe, explained, “World models allow machines to plan movements and interactions in simulated spaces, often called ‘digital twins,’ before attempting them in the physical world. This Dramatiskt minskar kostsamma prövning och fel, mildrar säkerhetsrisker och påskyndar lärande för uppgifter som industriförsamling, lagerlogistik eller serviceorienterade robotik.”

Detta dramatiskt accelererar lärande och förbättrar säkerheten, banar vägen för robotar som kan navigera opredicerbara mänskliga miljöer.

Lär dig

v-jepa 2: s intelligens är smidd i en tvåstegs träningsprocess. För det första bygger det en grundläggande förståelse för världen genom att analysera ett massivt datasätt på över en miljon timmars video och en miljon bilder.

dess arkitektur, känd som ett gemensamt inbäddat förutsägbart arkitektur (JEPA), lär sig genom att förutsäga saknade eller maskerade delar av video i ett abstrakt, begreppsmässigt utrymme snarare än att försöka rekonstruera varje pixel. Denna effektivitet gör det möjligt för modellen att fokusera på att lära sig koncept på hög nivå om objektinteraktioner och rörelse.

Det andra steget gör modellen användbar för robotik. Här är den finjusterad med actionkonditionerade data, med bara 62 timmars video-och kontrollingångar från Open-Source Droid-datasätt . Detta lär modellen att ansluta specifika åtgärder till deras fysiska resultat, vilket resulterar i ett system som enligt META kan användas för”nollskottsrobot som planerar att interagera med okända föremål i nya miljöer.”

a Teknisk analys av den första v-jepa noterade att dess förtroende för mycket korta videoklipp kan begränsa dess förmåga att förstå komplex, långvarig interaktion, en utmaning som mer framsteg kommer att bli mer fram> Trångt fält av fysisk intelligens

Metas tillkännagivande inträffar inte i ett vakuum. Pressen för att skapa grundläggande modeller för robotik är en viktig slagmark för stora tekniska laboratorier. I mars avslöjade Google DeepMind sina Gemini Robotics-modeller, som på liknande sätt integrerar syn, språk och åtgärder för att göra det möjligt för robotar att lära sig med minimal träning.

Kompetens för Emclements_Challenges_and_Future_Perspectives”Target=”_ Blank”> Konkurrens för EticMeDE) Inkluderar också specialiserade spelare som figur AI med sin Helix-modell, Microsofts Magma AI och många universitetsinsatser.

En kritisk kompletterande teknik är hyperrealistisk simulering. Plattformar som Genesis AI-simulatorn kan snabbt simulera fysiska miljöer som är viktiga för att utbilda dessa modeller säkert och effektivt.

Jim-fan, en forskare som är involverad i projektet, beskrev livligt sin kraft:”En timme med dator ger en robot 10 års träningsupplevelse. Detta belyser det branschövergripande fokuset på att övervinna den dataflaskhals som krävs för att utbilda AI för de nästan oändliga variationerna i den fysiska världen.

En öppen strategi för ett hårt problem

True till sin senaste strategi i AI, släpper Meta V-JEPA 2 och dess tillhörande verktyg som öppen-Source-tillgångar. The model’s code is available on GitHub, with checkpoints Tillgängligt för att krama ansiktet . Genom att göra tekniken allmänt tillgänglig hoppas Meta att främja ett samhälle som kan påskynda framstegen. Utvecklare som letar efter enkel integration kan emellertid möta hinder, eftersom samhällsdiskussioner om GitHub indikerar att det för närvarande finns ingen dedikerad, användarvänlig api . Testa noggrant hur väl AI-modeller resonerar om fysik. In its announcement, Meta noted a significant performance gap between humans and even top models on these tasks, highlighting a clear direction for needed improvement.

Progress against these benchmarks can be tracked on a public Hugging Face Leaderboard for physical Lärande , som ger ett transparent mått på hur nära fältet är att uppnå verklig fysisk intelligens.

metas öppna strategi, i kombination med den offentliga benchmarkeringen av sina modellernas begränsningar, understryker den enorma svårigheten med uppgiften framöver. Medan V-JEPA 2 är ett betydande steg, belyser det också den långa vägen mot att skapa den typen av avancerad maskininformation som sömlöst kan navigera och interagera med vår komplexa fysiska värld.

Categories: IT Info