A
A Google teljes mértékben kiadta a Gemma 3N-t, a nyílt forráskódú mesterséges intelligencia modellek új generációját, amelynek célja az erőteljes multimodális képességek közvetlenül a fogyasztói eszközökhöz való hozzárendelése. A fejlett AI demokratizálásának jelentős lépésekor ezek a modellek feldolgozhatják a képeket, audio-és video bemeneteket, hogy szöveget generáljanak, miközben hardveren működnek, mindössze 2 GB memóriával, amely hatékonyan megsemmisíti az AI komplexet. Target=”_ üres”> Hivatalos fejlesztői útmutató , bevezet egy „mobil-első” modelleket, amelyek ellentétben állnak a Google nagyobb, védett Ikrek rendszereivel. Az új modellek két fő méretben kaphatók, az E2B és az E4B, amelyek építészeti innovációkat használnak a sokkal kisebb modellekkel összehasonlítható memória lábnyom futtatásához. Ez a hatékonysági áttörés azt jelenti, hogy a fejlesztők most kifinomult, offline képességű AI alkalmazásokat építhetnek és telepíthetnek a mindennapi hardver széles skáláján, az okostelefonoktól a laptopokig. A teljes kiadás megszilárdítja a Google azon törekvését, hogy felhatalmazza a fejlesztői közösséget olyan eszközökkel, amelyek korábban a nagyméretű adatközpontok tartománya, alapvetően megváltoztatva, ki építhet a cutting-edge AI-vel. Az akadálymentesség architektúrája
A Gemma 3N hatékonyságának középpontjában egy új építészet, amelyet az alapon felépítettek az eszközön. A Google bevezeti azt, amit Matformer, vagy Matryoshka transzformátor, architektúra , amely kisebb, teljesen funkcionális modelleket fészkel egy nagyobbban. Ez lehetővé teszi a fejlesztők számára, hogy az adott hardver korlátozásokhoz igazított modellméret-spektrumot telepítsenek, a Google pedig a matraper laboratórium Az optimális konfigurációk azonosításához. Ez az innováció lehetővé teszi a modell paramétereinek nagy részét az eszköz fő CPU-ján, drasztikusan csökkentve a szükséges nagysebességű gyorsító memória (VRAM) mennyiségét. Az architektúra a KV gyorsítótár-megosztást is használja, amely szerint a vállalat megkétszerezi a kezdeti feldolgozás sebességét. Ez az ökoszisztéma-stratégia úgy tűnik, hogy a vállalat kettős irányú megközelítésének alapvető részét képezi. A VentureBeat interjúval, a Google termékmenedzserrel, a cégnek a nyitott és zárt modelljeinek, amely szimbiotikus kapcsolatként látja el, akkor a Google termékmenedzserrel. A Google nem látja Gemma és Ikrek versenytársait, ugyanazon érme több oldalát. A vállalat elemzi, hogy a fejlesztők mit építenek a Gemmával, hogy meghatározzák, hová menjenek a Frontier Research-szel. Ide tartoznak a Txgemma, a korábbi Gemma 2 architektúrára épített gyógyszerek felfedezésére szolgáló eszközök és a nagyon speciális delfingemma. Ez utóbbi egyedülálló együttműködés a Wild Delfin projektjével az évtizedes delfin felvételek elemzésére, megpróbálva megtalálni az állatok kommunikációjának mintáit-egy olyan feladat, amely az AI alkalmazás határait nyomja. lelkesedés az azonnali használhatóság iránt. A független fejlesztő, Simon Willison dicsérte a kiadás átfogó természetét, és azt nevezte: „A Gemma 3N a legátfogóbb napi indítás, amelyet bármely modellnél láttam.” A gyakorlati tesztelés során Blogjában részletezve. Miközben sikeresen felhasználta a modell egyik verzióját az audio-átíráshoz, megjegyezte néhány kezdeti quirk-ot is, mivel a modell nem sikerült helyesen leírni az éppen létrehozott képet. 3N Impact Challenge , 150 000 dolláros díjakkal járó verseny azoknak a fejlesztőknek, akik az új modelleket használják a társadalmi jó termékek készítésére. A modellek egy fejlett audio kódolót tartalmaznak, amely a Universal Speech Model (USM) és egy új, art-art látás kódolóját, a MobileNet-V5-et, amely a videót a Videót, a Google Pixel, a Google Pixel-en, a Google Pixel-en, a Google Pixel-en. A hatalom lenyűgöző eredményeket hozott a ranglistákon. A nagyobb Gemma 3N E4B változat az első 10 milliárd paraméter alatti modell, amely az LMARENA pontszámot meghaladja az 1300-nál, egy olyan referenciaérték, amely az emberi preferenciákon alapuló teljesítményt mér.
Azáltal, hogy megtervez egy olyan erőteljes multimodális modellt, amely az emberek minden nap használható eszközökön élhet, a Google nem csak egy új eszköz kiadása, hanem egyértelmű nyilatkozatot tesz. A lépés megkérdőjelezi azt a gondolatot, hogy az élvonalbeli AI-nek kizárólag a felhőben kell lennie, felhatalmazva a fejlesztők új hullámát az intelligens, magán-és hozzáférhető alkalmazások következő generációjának felépítésére.