Google a fait un pas vers la création de ses modèles d’IA plus compétents qui coulent sur le matériel quotidien en publiant des versions spécialement optimisées de sa famille Gemma 3.

Les modèles utilisent une formation en quantification (QAT) et utilisent une précision entière 4 bits (INT4)-un format numérique utilisant seulement 4 bits par paramètre par rapport à leurs types de shrink communs comme BFLOAT16 (BF16) exigences. Le principal résultat est que les modèles sophistiqués, y compris la grande variante Gemma 3 27B, peuvent désormais fonctionner sur des cartes graphiques populaires au niveau des consommateurs, en les éloignant du domaine exclusif des accélérateurs de centre de données haut de gamme.

Google avait signalé son intention d’offrir des versions compressées, prometteur «réduisant la taille du modèle et les exigences de calcul tout en conservant une forte précision». Ce plan est maintenant réalisé avec ces versions de QAT.

Le communiqué suit les débuts initiaux de la série Gemma 3 le 12 mars. Ce lancement a introduit des modèles couvrant 1 milliard à 27 milliards de paramètres, loués pour des performances solides-le modèle 27B a bien obtenu un score dans des comparaisons comme la LMSYS Chatbot Arena, un système de classement des systèmes via des préférences humaines-mais leur dépendance au format BF16 signifiait des exigences matérielles importantes, nécessitant souvent des systèmes tels que les modèles de Nvidia H100.

Source: Google

SMARTS

La technique clé est la formation en quantification (QAT). Contrairement à la simple compression d’un modèle une fois la formation terminée (quantification post-formation, ou PTQ), le QAT intègre les contraintes de la précision numérique plus faible directement dans la boucle de formation elle-même, simulant ces opérations pendant le processus.

Google a déclaré qu’il avait appliqué le QAT pour environ 5 000 étapes de formation, enseignant essentiellement le modèle pour bien effectuer le blog par le blog, le blog, le blog, le blog, le blog, le blog, le blog, le blog, le blog, le blog, le blog de la société. A diminué de manière significative la baisse habituelle de la qualité associée à la quantification, citant une réduction de 54% du déclin de la perplexité (une mesure de la façon dont un modèle prédit le texte) pour le”Q4_0 [format] en utilisant l’évaluation de perplexité LLAMA.CPP”par rapport aux méthodes standard.

qat lui-même n’est pas nouveau; Il s’agit d’une technique établie prise en charge par des frameworks majeurs , mais son application offre ici des avantages pratiques.

Le modélisation est une réduction abrupte dans le VRAM (vidéo vidéo). Le modèle Gemma 3 27B a vu son empreinte de poids diminuer de 54 Go (BF16) à 14,1 Go (INT4).

Cette réduction signifie que la version INT4 de 14,1 Go s’adapte désormais bien dans les 24 Go de VRAM trouvés sur des cartes comme la Nvidia RTX 3090. D’autres modèles ont vu des baisses similaires: 12b de 24 g à 6,6 Gb (approprié pour le 8GBA GPU comme l’ordinateur portable NVIDIA RTX 4060), 4b de 8 Go à 2,6 Go, et le minuscule 1b de 2 Go à 0,5 Go. Bien que ces économies soient substantielles,

source: Google

Google a manifestement ajouté dans son annonce:”Ce chiffre ne représente que le VRAM requis pour charger les poids du modèle. L’exécution du modèle nécessite également un VRAM supplémentaire pour le cache KV, qui stocke les informations sur la conversation en cours et dépend de la longueur de contexte”.

Le cache KV maintient des calculs intermédiaires liés à la séquence de base, augmentant les conversations ou les documents traités augmente, consommer des souvenirs supplémentaires. Cette économie de mémoire basée sur le QAT complète les efficacités architecturales existantes dans GEMMA 3 conçues pour atténuer la croissance du cache KV.

Capacités au-delà de la génération de texte

Il est important de noter, ces gains d’efficacité ne semblent pas sacrifier les fonctionnalités de base. Basé sur Détails du modèle , les modèles GEMMA 3 QAT conservent les fonctionnalités de leurs prédécesseurs BF16, y compris la possibilité de traiter les entrées d’image aux côtés du texte et de maintenir la fenêtre de contexte de 128 000 tamis. cache lors d’interactions longues, selon le modèle Rapport technique . Un support linguistique large, couvrant plus de 140 langues selon les rapports antérieurs, devrait également se reproduire.

exécuter sur votre propre machine: expériences et obstacles

Les réductions VRAM ouvrent la porte pour exécuter ces modèles sur du matériel largement détenu. Simon Willison a partagé les premières expériences positives, exécutant le modèle 27B QAT via ollama (en utilisant environ 22 Go de système de RAM) et mlx Sur sa machine personnelle, l’intégration MLX ne faisait pas de bosses à environ 15gb de mémoire.

cependant. Comme cela est commun avec les nouvelles versions, certains utilisateurs initialement a déclaré que les bogues ont été rapportés La mise en œuvre de MLX, bien que les développeurs d’outils aient semblé aborder rapidement ces problèmes avec les mises à jour.

En outre, les membres de la communauté sur des plateformes comme Reddit ont observé que les fichiers GGUF officiels (un format commun pour les modèles quantifiés utilisés par des outils comme Llama.cpp) pour les modèles QAT étaient plus grand que théoriquement nécessaire pour les poids int4. Ceci a été retracé au tableau des intérêts de jeton-qui représente numériquement les mots pour le modèle-dans les fichiers GGUF officiels restant non qualifiés (à moitié précis Bien qu’avec des modifications non officielles.

Support et disponibilité de l’écosystème

Google a rendu les modèles officiels INT4 et Q4_0 QAT disponibles via Hugging Face Et Kaggle , formé à l’aide de son infrastructure TPU interne (TPUV4P, V5P, V5E). Surtout, ils sont conçus pour l’intégration avec des outils de développeurs populaires. Le support natif existe dans Olllama, LM Studio , Mlx (pour Apple Silicon), Google de Google gemma.cpp (pour le CPU C ++), et llama.cpp (via le format GGUF). href=”https://ai.google.dev/gemma/gemmaverse”Target=”_ Blank”> gemmaverse ,”où les contributeurs communautaires comme barre href=”https://huggingface.co/collections/unsloth/gemma-3-67d12b7e8816ec6efa7e4e5b”cible=”_ Blank”> Unsloth , et GGML Offre des versions quantifiées alternatives, souvent en utilisant des méthodes PTQ, pour les développeurs avec plus de choix dans les spectres de taille/vitesse/de la qualité/speed. > Poussez dans l’industrie

La version de Gemma 3 QAT se présente au milieu d’une industrie plus large pour rendre les modèles d’IA plus efficaces et accessibles. Juste la veille de l’annonce de Google, Microsoft Research a dévoilé Bitnet B1.58 2B4T.

Bitnet représente une stratégie différente, employant une formation native à une précision de 1,58 bits extrêmement faible et ciblant principalement l’efficacité du processeur. Bien que Microsoft réclame des résultats impressionnants, les réaliser nécessite l’utilisation d’un Framework C ++ (Bitnet.cpp) , car les bibliothèques standard ne sont pas optimisées pour ses mathématiques uniques. Cela contraste avec l’approche de Google à utiliser le format INT4 plus standard et à tirer parti des outils existants et largement adoptés pour l’inférence GPU, offrant potentiellement un chemin d’adoption plus facile aux développeurs axé sur la gestion de modèles sur les cartes graphiques de consommation.

Categories: IT Info