A

Meta kiadta a V-Jepa 2-et, egy fejlett AI rendszert, amely a videóból tanul, stratégiai lökésen, hogy a robotok fizikai józan ész formáját adják. A társaság június 11-én bejelentette, hogy a nyílt forrású „világmodell” célja a valós interakciók megértése és előrejelzése, amely kritikus lépés a képesbb és adaptív intelligens ügynökök felépítése felé. A valóság belső szimulációjának felépítésével ezek a modellek lehetővé teszik az AI számára, hogy „gondolkodjon”, mielőtt cselekszik, és összetett feladatokat tervez az emberszerűbb módon. A meta számára a projekt a fejlett gépi intelligencia hosszú távú elképzelésének kulcsfontosságú része, az ipari robotikától a kibővített valóság szemüvegéig terjedő potenciális alkalmazásokkal. Jelentős evolúció az elődje, a V-Jepa-tól. Míg ez a kezdeti verzió létrehozta a videóból való tanulás alapfogalmát, ez az új 1,2 milliárd paraméteres rendszer kifejezetten továbbfejleszti a gyakorlati tervezés és irányítás érdekében, amelynek célja a digitális intelligencia és a fizikai világ közötti szakadék áthidalása. src=”adatok: image/svg+xml; nitro-üres-id=mty0mjo3ntg=-1; base64, phn2zyb2awv3qm94psiwidagotywidi5 MCIGD2LKDGG9IJK2McigagVPZ2H0PSIYOTAIHHTBG5ZPSJODHRWOI8VD3D3D3LNCZLM9YZY8YMDAWL3N2ZYI+PC9ZDMC+”>”>”>”>”>”>”>”>”>”>

Mik a világmodellek? A nagy nyelvi modellektől eltérően, amelyek egy mondatban a következő szót előrejelzik, a világmodellek megpróbálják megjósolni magának a világ jövőbeli állapotait. Egy világmodell megfigyeli a környezetét, és előre jelzi, hogy mi történhet ezután, sokkal összetettebb feladat, mint a szöveges alapú előrejelzés. Mint Juan Bernabé-Moreno, az IBM Research Európában, elmagyarázta ,„ a világmodellek lehetővé teszik a mozgás megtervezését és az interakciók megtervezését, és az interakciókat, hogy a mozgásokat megtervezzék. Csökkenti a költséges próbaverziós és hibát, enyhíti a biztonsági kockázatokat és felgyorsítja a feladatok, például az ipari összeszerelés, a raktár logisztikája vagy a szolgáltatásorientált robotok tanulását. Megtanulja

v-jepa 2 intelligenciáját kétlépcsős képzési folyamatban. Először, a világ alapvető megértését építi fel egy több mint egymillió órás videó és egymillió képből álló hatalmas adatkészlet elemzésével. Ez a hatékonyság lehetővé teszi a modell számára, hogy a magas szintű fogalmak megtanulására összpontosítson az objektumok interakcióiról és a mozgásról. Itt finoman hangolva van cselekvéskondicionált adatokkal, mindössze 62 órás video-és vezérlő bemeneteket felhasználva a nyílt forráskódú droid adatkészlet -ból. Ez azt tanítja a modellt, hogy összekapcsolja a konkrét műveleteket a fizikai eredményeikkel, és olyan rendszert eredményez, amely a Meta szerint felhasználható „nulla lövés robot tervezésére, hogy új környezetben ismeretlen objektumokkal kölcsönhatásba lépjen”.

Ugyanakkor a Az első V-Jepa műszaki elemzése Megemlítette, hogy a nagyon rövid videoklipekre való támaszkodás korlátozhatja a HOSSZTÁSOT, A HOSSZTÁSOK TÖRTÉNTETT, A HASZNÁLATOS TÖRTÉNIK, HOGY A HASZNÁLATOK SZERKEZETT VILÁGOKKAL. A fizikai intelligencia zsúfolt területe

A Meta bejelentése nem történik vákuumban. A robotika alapvető modelljeinek létrehozásának lendülete a fő technológiai laboratóriumok kulcsfontosságú csatatér. Márciusban a Google DeepMind bemutatta a Gemini Robotics modelleket, amelyek hasonlóan integrálják a látást, a nyelvet és a cselekvést, hogy lehetővé tegyék a robotok minimális képzéssel történő megtanulását. href=”https://www.researchgate.net/publication/378699233_a_compehened_survey_on_embodied_intelligence_advancements_challenges_and_future_perspectives”Target”_ üres”> Kompotens Landscape a testmozgáshoz. A Researchgate olyan speciális játékosokat is magában foglal, mint például az AI ábra a Helix modelljével, a Microsoft Magma AI-vel és számos egyetemi erőfeszítéssel. Az olyan platformok, mint a Genesis AI szimulátor, gyorsan szimulálhatják a fizikai környezeteket, amelyek nélkülözhetetlenek ezeknek a modelleknek a biztonságos és hatékony képzéséhez. Ez kiemeli az iparág egészében az AI képzéséhez szükséges adat szűk keresztmetszetét a fizikai világ közel infinite variációinak kiképzéséhez. A modell kódja elérhető a githubon , ellenőrző pontokkal hozzáférhető az arc átölelésén . Azáltal, hogy a technológiát széles körben elérhetővé teszi, a Meta reméli, hogy elősegíti egy olyan közösséget, amely felgyorsítja az előrehaladást. Az egyszerű integrációt kereső fejlesztők azonban akadályokkal szembesülhetnek, mivel a Github közösségi megbeszélései azt mutatják, hogy jelenleg nem szabadított, felhasználói-fators API . Szigorúan tesztelje, hogy az AI modellek milyen jól érzékelik a fizikát. Bejelentésében a Meta jelentős teljesítményrést mutatott az emberek és még a legfontosabb modellek között ezeken a feladatokon, kiemelve a szükséges javulás világos irányát. Tanulás , átlátható mértékben biztosítva, hogy a mező milyen közel áll a valódi fizikai intelligencia eléréséhez. Noha a V-Jepa 2 jelentős lépés, megvilágítja a hosszú utat az olyan fejlett gépi intelligencia létrehozása felé, amely zökkenőmentesen navigálhat és kölcsönhatásba léphet komplex fizikai világunkkal.

Categories: IT Info