O Google deu um passo para tornar seus modelos de IA mais capazes executáveis ​​no hardware cotidiano, lançando versões especialmente otimizadas de sua família Gemma 3. demandas. O resultado primário é que modelos sofisticados, incluindo a grande variante Gemma 3 27b, agora podem operar em placas gráficas populares no nível do consumidor, movendo-as para fora do domínio exclusivo de aceleradores de data center de ponta. Esse plano agora é realizado com esses lançamentos do Qat.

O lançamento segue a estréia inicial da série Gemma 3 em 12 de março de. Esse lançamento introduziu modelos que abrangem 1 bilhão a 27 bilhões de parâmetros, elogiados por um desempenho forte-o modelo de 27b pontuou bem em comparações como o LMSYS Chatbot Arena, um ranking de sistemas por meio de preferência humana-mas sua dependência do formato BF16 significava requisitos de hardware, geralmente que precisam de sistemas como H100. Smarts

A técnica principal é o treinamento com consciência de quantização (QAT). Ao contrário de simplesmente comprimir um modelo após a conclusão do treinamento (quantização pós-treinamento, ou PTQ), o QAT integra as restrições de menor precisão numérica diretamente no loop de treinamento, simulando essas operações durante o processo. reduziu a queda usual na qualidade associada à quantização, citando uma redução de 54% no declínio da perplexidade (uma medida de quão bem um modelo prevê texto) para o”Q4_0 [formato] usando llama.cpp perplexidade avaliação”em comparação com métodos padrão. é uma técnica estabelecida suportada por grandes estruturas , mas sua aplicação aqui rendem os benefícios práticos. O modelo Gemma 3 27b viu sua pegada de peso diminuir de 54 GB (BF16) para 14,1 GB (INT4). como o laptop NVIDIA RTX 4060), 4b de 8 GB a 2,6 GB e o minúsculo 1b de 2 GB a 0,5 GB. Embora essas economias sejam substanciais,

fonte: Google

Google adicionado com prudência em seu anúncio: “Esta figura representa apenas o VRAM necessário para carregar os pesos do modelo. A execução do modelo também requer VRAM adicional para o cache KV, que armazena informações sobre as conversas contínuas e depende do comprimento do contexto”. pesos. Essa economia de memória baseada no QAT complementa a eficiência arquitetônica existente no Gemma 3, projetado para mitigar o crescimento do cache do KV. Baseado em Detalhes do modelo , os modelos Gemma 3 Qat retêm os recursos de seus predecessores BF16, incluindo a capacidade de processar entradas de imagem ao lado do texto e manter a extensa Janela de contexto de 128.000 TOKEN. cache durante longas interações, de acordo com o modelo Relatório Técnico . O amplo suporte à linguagem, cobrindo mais de 140 idiomas, de acordo com relatórios anteriores, também deve ser realizado. Simon Willison compartilhou experiências iniciais positivas, executando o modelo de 27b Qat via ollama (Usando em torno de 22 GB em todo o sistema) e mlx em sua máquina pessoal. no entanto. Como é comum com novos lançamentos, alguns usuários inicialmente relatou-se Bugs A implementação da MLX, embora os desenvolvedores de ferramentas pareçam abordar esses problemas rapidamente com as atualizações. href=”https://www.reddit.com/r/localllama/comments/1jsq1so/smaller_gemma3_qat_versions_12b_in_8gb_and_27b_in/”Target=”_blank> maiores que teoricamente necessários Isso foi rastreado até a tabela de incorporação de token-que representa numericamente palavras para o modelo-dentro dos arquivos GGUF oficiais que permanecem não quantizados (com meia precisão). Embora com modificações não oficiais. href=”https://huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b” target=”_blank”>Hugging Face and kaggle , treinado usando sua infraestrutura interna de TPU (TPUV4P, V5P, V5E). Fundamentalmente, eles são projetados para integração com ferramentas de desenvolvedor populares. O suporte nativo existe em Ollama, LM Studio , MLX (para o silício da Apple), o Google gemma.cpp (para C ++ inferência de CPU), e o LLAMA.CPP (através do formato GGUF). href=”https://ai.google.dev/GEMMA/GEMMAVERSE”Target=”_ Blank”> gemmaverse “, onde colaboradores da comunidade como Unsloth , e ggml Oferece quantidades alternativas, geralmente usando os métodos ptq, fornecendo os empreendimentos com os empreendimentos com os desenvolvedores com os desenvolvedores com os desenvolvedores. > A eficiência atravessa o setor

O lançamento do Gemma 3 Qat vem em meio a um foco mais amplo da indústria em tornar os modelos de IA mais eficientes e acessíveis. No dia anterior ao anúncio do Google, a Microsoft Research revelou o BitNet B1.58 2B4T. Embora a Microsoft reivindique resultados impressionantes, alcançá-los exige usar um C ++ Framework (bitnet.cpp) , pois as bibliotecas padrão não são otimizadas para sua matemática exclusiva. Isso contrasta com a abordagem do Google de usar o formato INT4 mais padrão e alavancar ferramentas existentes e amplamente adotadas para a inferência da GPU, oferecendo potencialmente um caminho de adoção mais fácil para os desenvolvedores focados na execução de modelos em placas gráficas de consumo.

Categories: IT Info