Google a entièrement publié Gemma 3n, une nouvelle génération de modèles d’intelligence artificielle open source conçus pour apporter des capacités multimodales puissantes directement aux appareils grand public. Dans une décision significative de démocratiser l’IA avancée, ces modèles peuvent traiter les images, l’audio et les entrées vidéo pour générer du texte tout en fonctionnant sur du matériel avec aussi peu que 2 Go de mémoire, effectivement un complexe IA complexe du cloud.
La version, détaillée dans un Guide officiel du développeur , présente une famille de modèles”mobile”mobile”qui contraste avec les systèmes de gémains plus grands et proprétaires de Google. Les nouveaux modèles sont disponibles en deux tailles principales, E2B et E4B, qui utilisent des innovations architecturales pour fonctionner avec une empreinte mémoire comparable à des modèles beaucoup plus petits. Cette percée d’efficacité signifie que les développeurs peuvent désormais créer et déployer des applications AI sophistiquées et compatibles hors ligne sur un large éventail de matériel quotidien, des smartphones aux ordinateurs portables.
Le lancement suit un aperçu de Google I/S, et représente l’aboutissement d’une stratégie qui a commencé plus tôt cette année. La version complète solidifie la poussée de Google pour autonomiser la communauté des développeurs avec des outils qui étaient auparavant le domaine des centres de données à grande échelle, changeant fondamentalement qui peut construire avec Ai. de l’accessibilité
Au cœur de l’efficacité de Gemma 3n est une nouvelle architecture conçue à partir de zéro pour des performances sur les appareils. Google présente ce qu’il appelle le Matformer, ou transformateur matryoshka, architecture , qui niche des modèles plus petits et entièrement fonctionnels dans un plus grand. Cela permet aux développeurs de déployer un spectre de tailles de modèles adaptées à des contraintes matérielles spécifiques, avec Google fournissant un Matformer Lab Pour identifier les configurations optimales. Cette innovation permet de traiter une grande partie des paramètres du modèle sur le CPU principal d’un appareil, réduisant considérablement la quantité de mémoire d’accélérateur à grande vitesse (VRAM) requise. L’architecture utilise également KV Cache Partage, qui, selon l’entreprise, prétend double la vitesse du traitement initial.
[Contenu intégré]
Le”Gemmaverse”et la stratégie ouverte de Google
Gemma 3n n’est pas un produit autonome, mais la dernière étoile d’une constellation croissante de modèles ouverts Google”Gemmaverse”. Cette stratégie d’écosystème semble être un élément essentiel de l’approche à double hauteur de l’entreprise du développement d’IA. Selon une interview de VentureBeat Avec Google Product Manager Priya Singh, la société considère ses modèles ouverts et fermés comme une relation symbiotique. Google ne voit pas Gemma et Gemini comme des concurrents, plus de deux côtés de la même pièce. La société analyse ce que les développeurs construisent avec Gemma pour identifier où aller ensuite avec la recherche frontière.
Cette stratégie est évidente dans la variété de modèles spécialisés de marque Gemma publiés au cours de la dernière année. Il s’agit notamment de Txgemma, une suite d’outils pour la découverte de médicaments construite sur l’architecture Gemma 2 antérieure, et le Dolphingemma hautement spécialisé. Ce dernier est une collaboration unique avec le Wild Dolphin Project pour analyser des décennies d’enregistrements de dauphins, tentant de trouver des modèles en communication animale-une tâche qui repousse les limites de l’application de l’IA.
enthousiasme pour sa convivialité immédiate. Le développeur indépendant Simon Willison a salué la nature globale du communiqué, l’appelant «Gemma 3n est également le lancement le plus complet du jour un pour n’importe quel modèle». Dans les tests pratiques détaillé sur son blog , Willison a mis en évidence le large support de jour en un jour d’outils populaires comme Ollama et MLX. Bien qu’il ait utilisé avec succès une version du modèle pour la transcription audio, il a également noté quelques bizarreries initiales, le modèle n’ayant pas décrit correctement une image qu’il venait de générer.
pour stimuler davantage ce type d’engagement communautaire, Google a lancé le vide 3n Impact Challenge , une concurrence avec 150 000 $ en prix pour les développeurs qui utilisent les nouveaux modèles pour créer des produits pour le bien social.
Mesurer: multimodalité et concurrence sur le marché
Les gains architecturaux et les fonctionnalités adaptés aux développeurs sont soutenus par des performances solides et des nouvelles capacités. Les modèles présentent un encodeur audio avancé basé sur le Universal Speech Model (USM) et un nouvel état de vision de l’état-de-art, Mobilenet-V5, qui peut traiter la vidéo de 60 images permanentes permanentes sur un dispositif Google. L’efficacité et le pouvoir ont donné des résultats impressionnants sur les classements. La variante GEMMA 3N E4B plus grande est le premier modèle de moins de 10 milliards de paramètres à atteindre un score LMarena de plus de 1300, une référence qui mesure les performances basées sur les préférences humaines.
Ce chemin vers la puissance sur le disque a commencé avec les débuts initiaux de la série Gemma 3 en mars, dont les plus grands modèles ont été réalisés pour un avril.
En gérant un puissant modèle multimodal qui peut vivre sur les appareils que les gens utilisent tous les jours, Google ne publie pas seulement un nouvel outil, mais fait une déclaration claire. Cette décision remet en question l’idée que l’IA de pointe doit résider exclusivement dans le cloud, permettant une nouvelle vague de développeurs pour construire la prochaine génération d’applications intelligentes, privées et accessibles.