Google DeepMind har avduket en ny AI-modell som lar roboter operere med full autonomi, ubundet fra skyen. Det nye systemet, kalt Gemini Robotics on-enhet, kjører helt på en robots lokale maskinvare, en kritisk utvikling som lover å gjøre robotsystemer raskere, mer pålitelig og i stand til å fungere i miljøer med periodisk eller ingen internettforbindelse. Dette markerer et betydelig skritt mot å gjøre generelle roboter som er praktiske for applikasjoner i den virkelige verden.
Google DeepMind forklarer at den nye modellen, designet for to-arm-roboter, ikke bare er effektiv, men også svært tilpasningsdyktig og konstruert for å kreve minimale beregningsressurser. Det er den første av selskapets visjonsspråklige handlinger (VLA)-modeller som skal gjøres tilgjengelig for finjustering, slik at utviklere kan tilpasse den for nye, svært dyrebare oppgaver med så få som 50 til 100 demonstrasjoner. Denne muligheten til å generalisere fra en liten mengde nye data kan dramatisk akselerere distribusjonen av roboter i komplekse innstillinger.
For å lette dette, slipper selskapet en
Hovedavveiningen for AI på enheten er imidlertid den iboende begrensningen av lokal maskinvare, som har mindre datakraft og lagring enn store skyservere. Denne utfordringen har ført til forskjellige strategiske spill i hele bransjen. Figur AI, for eksempel, introduserte sin robotikkoptimaliserte Helix AI-modell i februar, som, i likhet med Googles nye system, kjører helt på innebygd GPU-er. I kontrast er Microsofts Magma AI-modell designet for dyp integrasjon med sin Azure Cloud-plattform, og målrettet Enterprise Automation der tilkobling er mer pålitelig. Googles egen strategi har utviklet seg; Flaggskipet Gemini Robotics Platform, introdusert i mars, bruker en hybrid tilnærming. Den nye enhetsmodellen gir en dedikert løsning for scenarier der autonomi er viktig. Venturekapitalinvestering i industriell humanoid robotikk tredoblet i 2024 til 1,2 milliarder dollar , signaliserer intens konkurranse. I henhold til International Federation of Robotics har det globale markedet for industriell robotinstallasjoner allerede robotet en høyde på $ 16.55 Lær av erfaring snarere enn stiv programmering. Dette konkurrerende landskapet inkluderer store aktører som forfølger unike filosofier. Mens Google og Figur AI Champion på enheten, ga Meta nylig ut V-JEPA 2, en åpen kildekode”verdensmodell”som lærer fysisk sunn fornuft fra video. Disse modellene lar en AI kjøre interne simuleringer for å”tenke”før den fungerer, og la maskiner”planlegge bevegelser og interaksjoner i simulerte rom”før de prøver dem i den fysiske verden. Denne tilnærmingen reduserer dramatisk kostbar prøve-og-feil og akselererer læring for oppgaver i industriell enhet og logistikk. Denne metoden, fokusert på å bygge en intern forståelse av fysikk, tilbyr en annen vei mot å lage roboter som kan navigere uforutsigbare menneskelige miljøer. Hjertet av Googles nye modell er et fokus på generalisering-evnen til å utføre nye oppgaver med minimal trening. Dette oppnås gjennom en teknikk kjent som Few-Shot Learning (FSL), som gjør at en modell kan lære av et veldig lite antall eksempler. Denne tilnærmingen søker å Emulere menneskelig evne for å forstå nye konsepter raskt, en sterk kontrast til tradisjonelle AI-modeller som ofte krever millioner av datapunkter. For robotikk, hvor det er upraktisk å samle enorme, merkede datasett for alle mulige oppgaver, er FSL en spillbytter. Google hevder Gemini-robotikk på enhet kan tilpasses med så få som 50 til 100 demonstrasjoner. Selskapet ga konkrete bevis på denne tilpasningsevnen, og bemerket at mens modellen opprinnelig ble trent for Aloha-roboter, ble den vellykket tilpasset en to-arm Franka FR3-robot og Apollo Humanoid-roboten av Apptronik. Denne muligheten er det som muliggjør systemets bredere potensial. Som Carolina Parada, sjef for robotikk på Google DeepMind, forklarte i rapportering fra Ars teknikk.”Det trekker fra Geminis multimodale verdensforståelse for å gjøre en helt ny oppgave… hva det muliggjør er på samme måte SDK gjennom et begrenset program fremhever en bredere strategisk pivot innen DeepMind. Laboratoriet, en gang en bastion av åpen vitenskapelig publikasjon, slipper nå mer selektivt sin kjerneteknologi for å beskytte Googles konkurransefortrinn. Dette skiftet har angivelig forårsaket friksjon internt, med en forsker
Denne proprietære holdningen står i kontrast til Metas rolle i Open Source AI med sine Llama-modeller, en strategi designet for å fremskynde samfunnsinnovasjon. Mens denne åpenheten er hyllet, har ytelsen til åpne modeller historisk fulgt sine kolleger med lukkede kilder. De beste open source-modellene har hengt etter proprietære med flere måneder, selv om det gapet krymper. Denne ytelsesforskjellen er med på å forklare hvorfor et selskap som Google vil beskytte den mest avanserte teknologien, selv om det gir verktøy for utviklere å bygge videre på den. Googles utgivelse av Gemini Robotics på-enhet er et beregnet trekk i konkurransen med høy innsats for å bygge neste generasjon intelligente maskiner. Den adresserer bransjens kritiske behov for lav latens, autonome systemer, samtidig som vi viser bemerkelsesverdige fremskritt i rask, menneskelignende læring. Likevel vil modellens endelige innvirkning ikke bare formes av dens tekniske dyktighet, men også av den strategiske spenningen mellom den samarbeidende ånden til åpen forskning og de bevoktet realitetene i kommersiell konkurranse. Et overfylt felt av fysisk intelligens
Å lære roboter å lære som mennesker