Google DeepMind hat ein neues KI-Modell vorgestellt, mit dem Roboter mit vollständiger Autonomie arbeiten können, die aus der Cloud enttäuscht ist. Das neue System mit dem Namen Gemini Robotics On Device stellt ausschließlich die lokale Hardware eines Roboters aus, eine kritische Entwicklung, die verspricht, Robotersysteme schneller, zuverlässiger und in der Lage zu machen, in Umgebungen mit intermittierender oder nicht im Internet zu funktionierender Funktionen zu funktionieren. Dies markiert einen bedeutenden Schritt, um allgemeine Roboter für Anwendungen in realer Welt praktisch zu machen. Es ist das erste der VLA-Modelle (Vision-Language-Action) des Unternehmens, die für die Feinabstimmung zur Verfügung gestellt werden können, sodass Entwickler sie für neue, hochstufige Aufgaben mit nur 50 bis 100 Demonstrationen anpassen können. This ability to generalize from a small amount of new data could dramatically accelerate the deployment of robots in complex settings.
To facilitate this, the company is releasing a Gemini Robotics SDK, available on Github, durch ein selektives -Bläder”>-Bläder”>. Dieser kontrollierte Rollout unterstreicht die strategische Bedeutung des Modells, da das Rennen um den Aufbau von fähigeren physischen AI-Systemen zwischen den wichtigsten Tech-Labors intensiviert ist. Ai
Google Move ist ein großer Eintritt in der Wolk-Debattierung. Die Verarbeitung von On-Device ist für Echtzeit-Robotik von entscheidender Bedeutung, da die Netzwerklatenz, die dem Cloud-Computing inhärent ist, eliminiert. Für Roboter, die mit der physischen Welt interagieren, kann eine Verzögerung der Entscheidungsfindung mit Split-Sekunden der Unterschied zwischen Erfolg und Misserfolg sein. Dies macht die lokale KI für Anwendungen, bei denen sofortige Antworten nicht verhandelbar sind, wesentlich. Diese Herausforderung hat zu unterschiedlichen strategischen Wetten in der gesamten Branche geführt. Abbildung AI hat beispielsweise sein Robotics-optimiertes Helix-AI-Modell im Februar eingeführt, das wie das neue System von Google ausschließlich auf eingebettetem GPUs ausgeführt wird. Die eigene Strategie von Google hat sich entwickelt. Die im März eingeführte Flaggschiff-Robotikplattform verwendet einen hybriden Ansatz. Das neue On-Device-Modell bietet eine dedizierte Lösung für Szenarien, in denen Autonomie von größter Bedeutung ist. target=”_ leer”> verdreifacht sich im Jahr 2024 auf 1,2 Milliarden US-Dollar
und signalisiert einen intensiven Wettbewerb. Nach dem International Federation of Robotics hat der globale Markt für Industrial-Robot-Installationen, die von 16,5. Erfahrung eher als starre Programmierung. Während Google und Figure AI Champion On-Device-Geschwindigkeit, Meta, kürzlich V-JEPA 2 veröffentlicht hat, ein Open-Source-„World-Modell“, das aus dem Video einen physischen gesunden Menschenverstand lernt. Diese Modelle ermöglichen es einer KI, interne Simulationen durchzuführen, bevor sie handelt, und lassen Maschinen „Bewegungen und Interaktionen in simulierten Räumen planen“, bevor sie sie in der physischen Welt versuchen. Diese Methode, die sich auf den Aufbau eines internen Verständnisses der Physik konzentriert, bietet einen weiteren Weg zum Erstellen von Robotern, die unvorhersehbare menschliche Umgebungen durchlaufen können. Dies wird durch eine Technik erreicht, die als FEW-Shot-Lernen (FSL) bekannt ist und es ein Modell ermöglicht, aus einer sehr kleinen Anzahl von Beispielen zu lernen. Dieser Ansatz versucht zu emulieren die menschlichen Fähigkeiten , um neue Konzepte schnell zu erfassen, ein starker Kontrast zu herkömmlichen KI-Modellen, die häufig Millionen von Datenpunkten erfordern. Für die Robotik, bei der das Sammeln von riesigen, beschrifteten Datensätzen für jede mögliche Aufgabe unpraktisch ist, ist FSL ein Game-Changer. Das Unternehmen lieferte konkrete Beweise für diese Anpassungsfähigkeit und stellte fest, dass das Modell zwar ursprünglich für Aloha-Roboter ausgebildet wurde, es jedoch erfolgreich an einen BI-Arm Franka FR3-Roboter und den Apollo Humanoiden Roboter von Apptronik angepasst wurde. Als Carolina Parada, Leiterin der Robotik bei Google DeepMind, erklärte in die finanziellen Zeiten. standardmäßig. Während diese Offenheit gelobt wird, hat die Leistung offener Modelle ihre Gegenstücke geschlossene Quellen in der Vergangenheit zurückgezogen. Die besten Open-Source-Modelle sind um mehrere Monate hinter den proprietären Modellen zurückgeblieben, obwohl diese Lücke schrumpft. Dieser Leistungsunterschied erklärt, warum ein Unternehmen wie Google seine fortschrittlichste Technologie schützen würde, auch wenn es Tools für Entwickler bietet, die darauf aufbauen können. Es befasst sich direkt mit dem kritischen Bedarf der Branche nach autonomen Systemen mit geringer Latenz und gleichzeitig bemerkenswerte Fortschritte beim schnellen, menschlichen Lernen. Der endgültige Einfluss des Modells wird jedoch nicht nur durch seine technischen Fähigkeiten, sondern auch durch die strategische Spannung zwischen dem kollaborativen Geist der offenen Forschung und den bewachten Realitäten des kommerziellen Wettbewerbs geprägt.