Google ha dado un paso para hacer que sus modelos de IA más capaces sean ejecutables en el hardware cotidiano al lanzar versiones especialmente optimizadas de su familia Gemma 3.

Los modelos emplean capacitación de cuantificación (QAT) y usan 4 bits Precision (int4), una forma numérica de reducción de 4 bits. demandas. El resultado primario es que los modelos sofisticados, incluida la gran variante de Gemma 3 27B, ahora pueden operar en tarjetas gráficas populares a nivel de consumidor, sacándolos del dominio exclusivo de los aceleradores de centros de datos de alta gama. Ese plan ahora se realiza con estas versiones QAT.

>

El lanzamiento sigue el debut inicial de la serie Gemma 3 el 12 de marzo. Ese lanzamiento introdujo modelos que abarcan mil millones a 27 mil millones de parámetros, elogiados por un rendimiento fuerte: el modelo de 27b obtuvo un buen puntaje en comparaciones como el LMSYS Chatbot Arena, un sistema de clasificación de sistemas a través de preferencias humanas, pero su dependencia de la confianza en el formato BF16 significaba requisitos de hardware significativos, a menudo necesitando sistemas como Nvidia H100. Smarts

La técnica clave es el entrenamiento de cuantización (QAT). A diferencia de simplemente comprimir un modelo después de que el entrenamiento se complete (cuantificación posterior al entrenamiento o PTQ), QAT integra las restricciones de una precisión numérica más baja directamente en el bucle de capacitación en sí, simulando estas operaciones durante el proceso.

Google indicó que aplicó QAT para aproximadamente 5,000 pasos de capacitación, esencialmente el modelo de la compañía, de acuerdo con el modelo, realiza un buen uso de menos bits por número. disminuyó la caída habitual de la calidad asociada con la cuantización, citando una reducción del 54% en la disminución de la perplejidad (una medida de qué tan bien un modelo predice el texto) para el”Q4_0 [formato] usando LLAMA.CPP Evaluación de la perplejidad”en comparación con los métodos estándar.

Qat no es novedosa; Es una técnica establecida admitida por los marcos principales , pero su aplicación aquí obtiene beneficios prácticos.

El beneficio práctico es una reducción de un paso en el vram (la memoria de video). The Gemma 3 27B model saw its weight footprint decrease from 54 GB (BF16) to 14.1 GB (int4).

This reduction means the 14.1 GB int4 version now fits well within the 24GB VRAM found on cards like the NVIDIA RTX 3090. Other models saw similar drops: 12B from 24 GB to 6.6 GB (suitable for the 8GB VRAM in Las GPU como la computadora portátil NVIDIA RTX 4060), 4B de 8 GB a 2.6 GB, y el pequeño 1B de 2 GB a 0.5 GB. Si bien estos ahorros son sustanciales,

fuente: Google

Google agregó prudentemente en su anuncio:”Esta cifra solo representa el VRAM requerido para cargar los pesos del modelo. Ejecutar el modelo también requiere VRAM adicional para el caché KV, que almacena información sobre la conversación continua y depende de la longitud de contexto”.

El caché de KV contiene los cálculos intermedios relacionados con la secuencia de entrada, aumentando las conversaciones más grandes o procesados ​​más largos, consume el consumo de los cambios intermedios. Este ahorro de memoria basado en QAT complementa las eficiencias arquitectónicas existentes en Gemma 3 diseñada para mitigar el crecimiento de la caché de KV.

capacidades más allá de la generación de texto

Es importante importante, estas ganancias de eficiencia no parecen sacrificar la funcionalidad central. Basado en Detalles del modelo , los modelos GEMMA 3 QAT retienen las características de sus predecesores BF16, incluida la capacidad de procesar las entradas de imágenes junto con el texto y mantener el extenso ventana de contexto de 128,000 token. caché durante las largas interacciones, según el modelo Informe técnico . También se espera que el soporte de idioma amplio, que cubra más de 140 idiomas según informes anteriores, se transfiera.

Ejecutando en su propia máquina: experiencias y obstáculos

Las reducciones de VRAM abren la puerta para ejecutar estos modelos en hardware de propiedad ampliamente de propiedad. Simon Willison compartió experiencias tempranas positivas, ejecutando el modelo 27B QAT a través de ollama (usando alrededor de 22 GB de RAM en todo el sistema) y mlx En su máquina personal, encontrando que la versión mlx se sintió más rápido al usar aproximadamente 15gb de memoria.

. sin embargo. Como es común con los nuevos lanzamientos, algunos usuarios inicialmente

Además, los miembros de la comunidad en plataformas como Reddit observaron que los archivos oficiales de GGUF (un formato común para modelos cuantificados utilizados por herramientas como Llama.cpp) para los modelos QAT eran más grande que lo es necesario para int4 pesos. Esto se remonta a la tabla de incrustaciones de token, que representa numéricamente las palabras para el modelo, dentro de los archivos oficiales de GGUF que permanecen sin cesar (a la mitad de la precisión).

Los usuarios inteligentes demostraron que al cuantificar manualmente esta tabla específica, los tamaños de los archivos podrían reducirse aún más (fijar 12b en menos de 8GB, 27b un bajo 16GB), potencialmente, el uso de los archivos con GPAM en GPAM en GPAM en GPAM en GPMME en BETRME IN BUTCHE SIGNI aunque con modificaciones no oficiales.

soporte y disponibilidad del ecosistema

Google ha puesto a disposición los modelos oficiales de QAT INT4 y Q4_0 a través de abrazando cara y Kaggle , entrenado usando su infraestructura interna de TPU (TPUV4P, V5P, V5E). De manera crucial, están diseñados para la integración con herramientas populares de desarrollador. El soporte nativo existe en Ollama, lm studio , mlx (para Apple Silicon), el propio de Google gemma.cpp (para la inferencia de CPU de C ++) y llama.cpp (a través del formato Gguf).

Mientras que Google proporciona estas versiones oficiales, its también lo más amplio. href=”https://ai.google.dev/gemma/gemmaverse”target=”_ en blanco”> gemmaverse ,”donde los contribuyentes de la comunidad como sin lóbra , y ggml Ofrezca versiones cuantificadas alternativas, a menudo utilizando métodos de PTQ, proporcionando desarrolladores con más opciones en el tamaño/velocidad/velocidad de la calidad de los especificaciones. > empuje de eficiencia en toda la industria

El lanzamiento de Gemma 3 Qat se produce en medio de un enfoque de la industria más amplio en hacer que los modelos de IA sean más eficientes y accesibles. Justo el día anterior al anuncio de Google, Microsoft Research dio a conocer Bitnet B1.58 2B4T.

BITNET representa una estrategia diferente, empleando una capacitación nativa a una precisión extremadamente baja de 1.58 bits y se dirige principalmente a la eficiencia de la CPU. Si bien Microsoft afirma resultados impresionantes, lograrlos requiere usar un especializado c ++ marco (bitnet.cpp) , ya que las bibliotecas estándar no están optimizadas para sus matemáticas únicas. Esto contrasta con el enfoque de Google de utilizar el formato INT4 más estándar y aprovechar herramientas existentes y ampliamente adoptadas para la inferencia de GPU, ofreciendo potencialmente una ruta de adopción más fácil para los desarrolladores enfocados en ejecutar modelos en tarjetas de gráficos de consumo.

Categories: IT Info