Google heeft Gemma 3N volledig uitgebracht, een nieuwe generatie open-source kunstmatige intelligentiemodellen die zijn ontworpen om krachtige multimodale mogelijkheden rechtstreeks naar consumentenapparaten te brengen. In een belangrijke stap om geavanceerde AI te democratiseren, kunnen deze modellen afbeeldingen, audio-en video-ingangen verwerken om tekst te genereren terwijl ze op hardware werken met slechts 2 GB geheugen, effectief ontelbare complex AI uit de cloud.
De release, gedetailleerd in een Officiële ontwikkelaarsgids , introduceert een”mobiel-first”-familie van modellen die in contrast staat op de grotere, eigen, eigen, proprietige geleidersystemen. De nieuwe modellen zijn beschikbaar in twee hoofdgroottes, E2B en E4B, die architecturale innovaties gebruiken om te draaien met een geheugenvoetafdruk vergelijkbaar met veel kleinere modellen. Deze doorbraak van efficiëntie betekent dat ontwikkelaars nu geavanceerde, offline-compatibele AI-applicaties kunnen bouwen en implementeren op een breed scala aan alledaagse hardware, van smartphones tot laptops.
De lancering volgt een preview bij Google I/O, en vertegenwoordigt het hoogtepunt van een strategie die eerder dit jaar begon. De volledige release stolt Google’s push om de ontwikkelaarscommunity te machtigen met tools die voorheen het domein waren van grootschalige datacenters, fundamenteel veranderen wie kan bouwen met snij-geedge ai.
Matformer, of Matryoshka-transformator, architectuur , die kleinere, volledig functionele modellen nestelt binnen een grotere. Hierdoor kunnen ontwikkelaars een spectrum van modelgroottes implementeren die zijn afgestemd op specifieke hardwarebeperkingen, waarbij Google een matformer lab biedt om optimale configuraties te helpen identificeren. Met deze innovatie kan een groot deel van de parameters van het model worden verwerkt op de hoofd-CPU van een apparaat, waardoor de hoeveelheid high-speed versnellersheugen (VRAM) drastisch wordt verminderd. De architectuur maakt ook gebruik van KV-cache-delen, waarvan het bedrijf beweert dat het de snelheid van de initiële verwerking verdubbelt.
[ingebedde inhoud]
De ‘Gemmaverse’ en de open strategie van Google
Gemma 3n is geen op zichzelf staand product maar de nieuwste ster in een groeiende constellatie van de modellen Google Calls the”Gemmaverse.”Deze ecosysteemstrategie lijkt een kernonderdeel te zijn van de dubbele benadering van het bedrijf van AI-ontwikkeling. Volgens Een ventureBeat-interview met Google Product Manager Priya Singh, het bedrijf beschouwt de open en gesloten modellen als een symbiotica-relatie. Google ziet Gemma en Gemini niet als concurrenten, meer twee kanten van dezelfde munt. Het bedrijf analyseert wat ontwikkelaars bouwen met Gemma om te identificeren waar te gaan met Frontier Research.
Deze strategie is duidelijk in de verscheidenheid aan gespecialiseerde modellen van Gemma-merk die het afgelopen jaar is uitgebracht. Deze omvatten Txgema, een reeks hulpmiddelen voor het ontdekken van geneesmiddelen gebouwd op de eerdere Gemma 2-architectuur en de zeer gespecialiseerde Dolphingemma. De laatste is een unieke samenwerking met het Wild Dolphin Project om tientallen jaren Dolphin-opnames te analyseren, in een poging om patronen te vinden in diercommunicatie-een taak die de grenzen van AI-toepassing verlegt.
een ontwikkelaars perspectief: Power ontmoet praktisch
De ware test van een open model is de ware test van een open model. enthousiasme voor zijn onmiddellijke bruikbaarheid. Onafhankelijke ontwikkelaar Simon Willison prees het uitgebreide karakter van de release en noemde het:”Gemma 3n is ook de meest uitgebreide lancering van de dag één die ik voor elk model heb gezien.”In praktische testen gedetailleerd op zijn blog , benadrukte Willison de brede, dag-one-ondersteuning van populaire hulpmiddelen zoals Ollama en MLX. Hoewel hij met succes één versie van het model voor audiotranscriptie gebruikte, merkte hij ook enkele initiële quirks op, waarbij het model geen afbeelding correct beschrijft dat het zojuist had gegenereerd.
Om dit soort gemeenschapsbetrokkenheid verder aan te sporen, heeft Google de Universal spraakmodel (USM) en een nieuw state-of-the-art vision-visie, Mobilenet-v5, die video kan verwerken tot 60 frames per seconde. Efficiëntie en macht hebben indrukwekkende resultaten opgeleverd op leaderboards. De grotere Gemma 3N E4B-variant is het eerste model onder 10 miljard parameters om een Lmarena-score van meer dan 1300 te behalen, een benchmark die prestaties meet op basis van menselijke voorkeuren.
Dit pad naar een-devicipacht begon met het eerste debuut van de Gemma 3-serie in maart.
Door een krachtig multimodaal model dat kan leven op de apparaten die mensen elke dag gebruiken, geeft Google niet alleen een nieuwe tool uit, maar maakt een duidelijke verklaring af. De verhuizing daagt het idee uit dat geavanceerde AI uitsluitend in de cloud moet verblijven, waardoor een nieuwe golf van ontwikkelaars in staat is om de volgende generatie intelligente, privé-en toegankelijke toepassingen te bouwen.