Meta hat V-JEPA 2, ein fortschrittliches KI-System, das aus dem Video lernt, veröffentlicht, um Robotern eine Form des physischen gesunden Menschenverstandes zu geben. Das Unternehmen kündigte am 11. Juni an, dass das Open-Source-„World-Modell“ reale Interaktionen verstehen und vorherzusagen soll, ein kritischer Schritt, um fähigere und adaptivere intelligente Agenten aufzubauen. Durch den Aufbau einer internen Simulation der Realität ermöglichen diese Modelle eine KI, bevor sie handelt, und plant komplexe Aufgaben auf menschlichere Weise. Für Meta ist das Projekt ein wesentlicher Bestandteil seiner langfristigen Vision für fortschrittliche Maschinenintelligenz, mit potenziellen Anwendungen, die von Industrier-Robotik bis hin zu den erweiterten Reality-Brillen reichen, die das Unternehmen seit langem entwickelt hat. Modell stellt eine signifikante Entwicklung seines Vorgängers V-JEPA dar. Während diese anfängliche Version das Kernkonzept des Lernens aus dem Video erstellt hat, wird dieses neue 1,2-Milliarden-Parameter-System für die praktische Planung und Kontrolle speziell verbessert, um die Lücke zwischen digitaler Intelligenz und der physischen Welt zu schließen. Src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty0MJO3NTG=-1; Base64, Phn2ZyB2AWV3QM94psiwidagotyWidi5 Mcigd2lkdgg9ijk2mcigagvpz2h0psiyotaiihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>
Was sind Weltmodelle? Im Gegensatz zu Großsprachmodellen, die das nächste Wort in einem Satz vorhersagen, versuchen Weltmodelle, zukünftige Zustände der Welt selbst vorherzusagen. Ein Weltmodell beobachtet seine Umgebung und erwartet, was als nächstes passieren könnte, eine weitaus komplexere Aufgabe als eine textbasierte Vorhersage. Wie Juan Bernabé-moreno, Direktor von IBM Research in Europa, erklärte , „Weltmodelle erlauben Maschinen, die Machterien zu planen. Reduziert dramatisch kostspielige Versuche und Irrtümer, mindert Sicherheitsrisiken und beschleunigt das Lernen für Aufgaben wie die Industrieversammlung, die Lagerhause-Logistik oder die serviceorientierte Robotik.”Lernt die Intelligenz von
V-JEPA 2 in einem zweistufigen Trainingsprozess. Erstens baut es ein grundlegendes Verständnis der Welt durch, indem ein massiver Datensatz von über einer Million Stunden Video und einer Million Bildern analysiert wird. Diese Effizienz ermöglicht es dem Modell, sich auf das Erlernen von Konzepten auf hoher Ebene über Objektinteraktionen und Bewegungen zu konzentrieren. Hier ist es fein mit action-konditionierten Daten, wobei nur 62 Stunden Video-und Steuereingänge aus Open-Source-Droid-Datensatz verwendet werden. Dies lehrt das Modell, spezifische Aktionen mit ihren physischen Ergebnissen zu verbinden, was zu einem System führt, das laut Meta für die „Planung von Roboter-Null-Shot-Roboter zur Interaktion mit unbekannten Objekten in neuen Umgebungen“ verwendet werden kann.
Ein Technische Analyse des ersten V-JEPA stellte fest, dass seine Abhängigkeit von sehr kurzen Video-Clips die Fähigkeit begrenzen kann, komplexe, langfristige Interaktionen zu verstehen.
Ein überfülltes Feld der physischen Intelligenz
Metas Ankündigung findet in einem Vakuum nicht statt. Der Vorstoß, grundlegende Modelle für Robotik zu erstellen, ist ein wichtiges Schlachtfeld für große Tech Labs. Im März hat Google DeepMind seine Gemini-Robotikmodelle vorgestellt, die Vision, Sprache und Handlung in ähnlicher Weise integrieren, damit Roboter mit minimalem Training lernen können.
Die competitive landscape for embodied AI, as outlined in a survey on ResearchGate, also Enthält spezialisierte Spieler wie Figure AI mit seinem Helix-Modell, Microsoft Magma AI und zahlreichen Universitätsbemühungen. Plattformen wie der Genesis AI-Simulator können schnell physische Umgebungen simulieren, die für die sichere und effiziente Ausbildung dieser Modelle unerlässlich sind. Dies unterstreicht den branchenweiten Fokus auf die Überwindung des Datenguts, der für die beinahe-infiniten Variationen der physischen Welt erforderlich ist. Der Code des Modells ist verfügbar auf Github mit Checkpoints auf das umarmende Gesicht zugänglich . Indem Meta die Technologie weit verbreitet ist, hofft Meta, eine Gemeinschaft zu fördern, die den Fortschritt beschleunigen kann. Entwickler, die nach einer einfachen Integration suchen, können jedoch Hürden konfrontiert, da die Community-Diskussionen über Github derzeit angeben, dass es derzeit Keine dedizierten, benutzerfreundlichen. Testen Sie streng, wie gut KI-Modelle für die Physik Grund zu Physik haben. In seiner Ankündigung stellte Meta eine signifikante Leistungslücke zwischen Menschen und sogar Topmodellen für diese Aufgaben fest, die eine klare Richtung für die erforderliche Verbesserung hervorgehoben haben. Lernen , die ein transparentes Maß dafür liefert, wie nahe das Feld an der Erreichung der offenen Strategie von
Meta in Kombination mit dem öffentlichen Benchmarking der Grenzen seiner Modelle ist, unterstreicht die immense Schwierigkeit der bevorstehenden Aufgabe. Während V-JEPA 2 ein bedeutender Schritt ist, beleuchtet es auch den langen Weg, die Art von fortschrittlicher maschineller Intelligenz zu schaffen, die nahtlos navigieren und mit unserer komplexen physischen Welt interagieren kann.