Google har fullt ut gitt Gemma 3N, en ny generasjon av åpen kildekode kunstige intelligensmodeller konstruert for å bringe kraftige multimodale evner direkte til forbrukerenheter. I et betydelig trekk for å demokratisere avansert AI, kan disse modellene behandle bilder, lyd-og videoinnganger for å generere tekst mens du opererer på maskinvare med så lite som 2 GB minne, og effektivt løsner kompleks AI fra skyen.
utgivelsen, detaljert i en offisiell utviklerguide , introduserer en”mobil-first”-familie av modeller som står i kontrast til Googles. De nye modellene er tilgjengelige i to hovedstørrelser, E2B og E4B, som bruker arkitektoniske innovasjoner for å kjøre med et minneavtrykk som kan sammenlignes med mye mindre modeller. Dette effektivitetsbruddet betyr at utviklere nå kan bygge og distribuere sofistikerte, offline-kapable AI-applikasjoner på et bredt utvalg av hverdagsmaskinvare, fra smarttelefoner til bærbare datamaskiner.
Lanseringen følger en forhåndsvisning på Google I/O, og representerer kulminasjonen av en strategi som begynte tidligere i år. Den fullstendige utgivelsen stivner Googles push for å styrke utviklersamfunnet med verktøy som tidligere var domenet til store datasentre, og endret grunnleggende hvem som kan bygge med Cuttinging Ai.
[innebygd innhold]
The ‘Gemmaverse’ og Googles åpne strategi
Gemma 3n er ikke et frittstående produkt, men den siste stjernen i en voksende konstellasjon av åpne modeller Googog Googog Google Goog GoGog Googog Google Goog GoGog Googog Google Google Googles Googog Google Googles google google er et frittstående Strategi
Gemma 3n er ikke et frittstående strategi
Gemma 3N er ikke et frittstående strategi et venturebeat-intervju med Google Product Manager. Google ser ikke Gemma og Gemini som konkurrenter, flere to sider av den samme mynten. Selskapet analyserer hva utviklere bygger med Gemma for å identifisere hvor de skal gå videre med Frontier Research.
Denne strategien er tydelig i mangfoldet av spesialiserte, Gemma-merkede modeller som ble utgitt det siste året. Disse inkluderer Txgemma, en serie verktøy for medikamentoppdagelse bygget på Prior Gemma 2-arkitekturen, og det høyt spesialiserte delfingemmaet. Sistnevnte er et unikt samarbeid med Wild Dolphin-prosjektet for å analysere flere tiår med delfinopptak, og forsøke å finne mønstre i dyrekommunikasjon-en oppgave som skyver grensene for AI-applikasjon.
en utviklers perspektiv: Power Møtes praktiske
en utvikler som er en åpen modell, er det som er enhånds. for sin umiddelbare brukbarhet. Den uavhengige utvikleren Simon Willison berømmet den omfattende karakteren av utgivelsen, og kalte den”Gemma 3N er også den mest omfattende Day One-lanseringen jeg har sett for noen modell.”I praktisk testing detaljert på bloggen hans , fremhevet Willison den brede, dag-en-støtten fra populære verktøy som Oollama og MLX. Mens han med hell brukte en versjon av modellen for lydtranskripsjon, bemerket han også noen innledende quirks, med modellen som ikke klarte å beskrive et bilde den nettopp hadde generert.
For å anspore denne typen samfunnsengasjement, har Google lansert The Rypetitions/goStps.kwwww.kaggle..competitions/goGshoGwww.kaggle..comPetitions/goGwwww.kaggle..competitions/goNgwww.kaggle..competitions/goGwww.kaggle..competitions/goGww.kaggle. Target=”_ Blank”> Gemma 3N Impact Challenge , en konkurranse med $ 150 000 i premier for utviklere som bruker de nye modellene for å bygge produkter til sosialt gode.
måle opp: multimodalitet og markedskonkurranse
Arkitekturer. Modellene har en avansert lydkoder basert på Universal Speech Model (USM) og en ny statlig visjon til 60-rammene.
Denne kombinasjonen av effektivitet og kraft har gitt imponerende resultater på topplistene. Den større Gemma 3N E4B-varianten er den første modellen under 10 milliarder parametere for å oppnå en Lmarena-poengsum på over 1300, et mål som måler ytelse basert på menneskelige preferanser.
Denne veien til på-enhets-makt begynte med den første debut av Gemma 3-serien i mars, hvis større modeller ble praktisk for lokal bruk av en gang til å bli en gang til å ha en gang til å ha en gang med å gjøre det første for å debutere i en gang i mars. April.
Ved å konstruere en kraftig multimodal modell som kan leve på enhetene folk bruker hver dag, slipper ikke Google bare et nytt verktøy, men gir en klar uttalelse. Flyttingen utfordrer forestillingen om at nyskapende AI utelukkende må oppholde seg i skyen, og gir en ny bølge av utviklere til å bygge neste generasjon intelligente, private og tilgjengelige applikasjoner.