Google DeepMind har avslöjat en ny AI-modell som gör det möjligt för robotar att arbeta med full autonomi, obundna från molnet. Det nya systemet, med namnet Gemini Robotics on-Device, körs helt på en robots lokala hårdvara, en kritisk utveckling som lovar att göra robotsystem snabbare, mer pålitliga och kapabla att fungera i miljöer med intermittent eller ingen internetanslutning. Detta markerar ett betydande steg mot att göra allmänna robotar som är praktiska för verkliga applikationer.

Google DeepMind förklarar att den nya modellen, utformad för biarmrobotar, inte bara är effektiv utan också mycket anpassningsbar och konstruerad för att kräva minimala beräkningsresurser. Det är den första av företagets vision-språkliga (VLA)-modeller som görs tillgängliga för finjustering, vilket gör att utvecklare kan anpassa det för nya, mycket skickliga uppgifter med så få som 50 till 100 demonstrationer. Denna förmåga att generalisera från en liten mängd nya data kan dramatiskt påskynda distributionen av robotar i komplexa miljöer.

För att underlätta detta släpper företaget en gemi robithuTIM, genom att vara tillgängligt på tillgängligt till tillgängligt till tillgängligt på tillgängligt till tillgängligt. En selektiv Trusted Tester Program

Googles Flytta är en viktig inträde i en pivotal debatt den framtida robotiken: maskin. Bearbetning på enheten är avgörande för realtidsrobotik eftersom det eliminerar nätverkslatensen som är inneboende i molnberäkning. För robotar som interagerar med den fysiska världen kan en split-sekund försening i beslutsfattandet vara skillnaden mellan framgång och misslyckande. Detta gör lokala AI avgörande för applikationer där omedelbara svar inte är förhandlingsbara.

Den huvudsakliga avvägningen för AI på enheten är emellertid den inneboende begränsningen av lokal hårdvara, som har mindre datorkraft och lagring än stora molnservrar. Denna utmaning har lett till olika strategiska satsningar i hela branschen. Figur AI introducerade till exempel sin robotoptimerade Helix AI-modell i februari, som, liksom Googles nya system, kör helt inbäddad GPU: er.

I kontrast är Microsofts Magma AI-modell utformad för djup integration med sin Azure Cloud-plattform och riktar sig till Enterprise-automatisering där anslutning är mer pålitlig. Googles egen strategi har utvecklats; Dess flaggskepp Gemini Robotics Platform, som introducerades i mars, använder en hybridmetod. Den nya on-enhetsmodellen tillhandahåller en dedikerad lösning för scenarier där autonomi är avgörande.

Ett trångt fält av fysisk intelligens

Venture Capital Investment in Industrial Humanoidics tredubblades 2024 till 1,2 miljarder dollar , och signalerar intensiv konkurrens. According to the International Federation of Robotics, the global market for industrial robot installations has already hit an all-time high of $16.5 billion, with a key trend for 2025 being “Physical AI”—systems that learn from experience rather than Stel programmering.

Detta konkurrenslandskap inkluderar stora spelare som bedriver unika filosofier. Medan Google och Figur AI Champion On-Device Speed, släppte Meta nyligen V-JEPA 2, en öppen källkod”världsmodell”som lär sig fysisk sunt förnuft från video. Dessa modeller gör det möjligt för en AI att köra interna simuleringar att”tänka”innan den verkar, låta maskiner”planera rörelser och interaktioner i simulerade utrymmen”innan de försöker dem i den fysiska världen.

Detta tillvägagångssätt minskar dramatiskt kostsamma försök och fel och påskyndar lärande för uppgifter i industriell församling och logistik. Denna metod, som är inriktad på att bygga en intern förståelse av fysik, erbjuder en annan väg mot att skapa robotar som kan navigera oförutsägbara mänskliga miljöer.

Att lära robotar att lära sig som människor

i hjärtat av Googles nya modell är ett fokus på generalisering-förmågan att utföra nya uppgifter med minimal träning. Detta uppnås genom en teknik som kallas få-skottinlärning (FSL), som gör det möjligt för en modell att lära av ett mycket litet antal exempel. Denna strategi syftar till Emulera den mänskliga förmågan Att ta tag i nya koncept snabbt, en skarp kontrast till traditionella AI-modeller som ofta kräver miljoner datapunkter. För robotik, där det är opraktiskt att samla in stora, märkta datasätt för alla möjliga uppgifter, är en spelväxlare.

Google hävdar att Gemini robotik på enhet kan anpassas med så få som 50 till 100 demonstrationer. Företaget tillhandahöll konkreta bevis på denna anpassningsförmåga och noterade att medan modellen ursprungligen utbildades för Aloha-robotar, anpassades det framgångsrikt till en Bi-Arm Franda FR3-robot och Apollo Humanoid Robot av AppTronik.

Denna kapacitet är det som möjliggör systemets bredare potential. Som Carolina Parada, chef för robotik på Google DeepMind, förklarade i Rapportering från ars technica , Model’s, Modell’s, Modell’s, The Model’s, The Model’s ,’s model’s model extends.”Det är ritning från Geminis multimodala världsförståelse för att göra en helt ny uppgift… vad som möjliggör är på samma sätt Gemini kan producera text, skriva poesi, bara sammanfatta en artikel, du kan också skriva kod och du kan också generera bilder. Det kan också generera robotåtgärder.”

från Open Science to Gändes Standard.”

Denna proprietära inställning kontrasterar skarpt med Metas roll i öppen källkod AI med sina lama-modeller, en strategi som är utformad för att påskynda samhällets innovation. Medan denna öppenhet lovas, har prestandan för öppna modeller historiskt sett släpat sina motsvarigheter med stängda källor. De bästa öppna källkodsmodellerna har lagt efter sig efter proprietära under flera månader, även om det gapet krymper. Denna prestationsskillnad hjälper till att förklara varför ett företag som Google skulle skydda sin mest avancerade teknik, även om det ger verktyg för utvecklare att bygga vidare på den.

Googles utgåva av Gemini Robotics on-Device är ett beräknat drag i konkurrensen med höga insatser för att bygga nästa generation av intelligenta maskiner. Den behandlar direkt branschens kritiska behov av låga latens, autonoma system samtidigt som de visar anmärkningsvärda framsteg inom snabbt, mänskligt liknande lärande. Ändå kommer modellens ultimata inverkan att formas inte bara av dess tekniska förmåga utan också av den strategiska spänningen mellan den samarbetande andan av öppen forskning och de skyddade verkligheterna i kommersiell konkurrens. 

Categories: IT Info