O Google lançou totalmente a Gemma 3N, uma nova geração de modelos de inteligência artificial de código aberto projetados para trazer poderosos recursos multimodais diretamente aos dispositivos de consumo. Em uma jogada significativa para democratizar a IA avançada, esses modelos podem processar imagens, entradas de áudio e vídeo para gerar texto enquanto operando em hardware com apenas 2 GB de memória, efetivamente desarrumando a IA da IA ​​da nuvem.

A liberação, detalhada em um Guia oficial do desenvolvedor , Apresenta uma família de modelos”móvel-primeiro”que contrasta com contraste com o Google maior do Google, proprietários, proprietários. Os novos modelos estão disponíveis em dois tamanhos principais, E2B e E4B, que usam inovações arquitetônicas para executar com uma pegada de memória comparável a modelos muito menores. Esse avanço em eficiência significa que os desenvolvedores agora podem criar e implantar aplicativos de IA sofisticados e com capacidade offline em uma ampla variedade de hardware diário, de smartphones a laptops. O lançamento completo solidifica o esforço do Google para capacitar a comunidade de desenvolvedores com ferramentas que anteriormente eram o domínio de data centers em larga escala, mudando fundamentalmente quem pode construir com ai de ponta. Arquitetura de acessibilidade

No coração da eficiência de Gemma 3N é uma nova arquitetura projetada desde o início para o desempenho no dispositivo. O Google está introduzindo o que chama de Matformer, ou Matryoshka Transformer, arquitetura , que aninha modelos menores e totalmente funcionais em um maior. Isso permite que os desenvolvedores implantem um espectro de tamanhos de modelo adaptados a restrições específicas de hardware, com o Google fornecendo um Matformer Lab Para identificar as configurações ideais. (Ple). Essa inovação permite que uma grande parte dos parâmetros do modelo seja processada na CPU principal de um dispositivo, reduzindo drasticamente a quantidade de memória de acelerador de alta velocidade (VRAM) necessária. A arquitetura também usa o compartilhamento de cache da KV, que a empresa afirma dobrar a velocidade do processamento inicial. Essa estratégia de ecossistema parece ser uma parte central da abordagem dupla da empresa para o desenvolvimento da IA. De acordo com uma entrevista venturebeat Com um gerente de produto do Google Priya Singh, a empresa vê seus modelos e fechados como um symber. O Google não vê Gemma e Gemini como concorrentes, mais dois lados da mesma moeda. A empresa analisa o que os desenvolvedores constroem com Gemma para identificar para onde ir a seguir com a Frontier Research.

Essa estratégia é evidente na variedade de modelos especializados da marca Gemma lançados no ano passado. Isso inclui o TXGEMMA, um conjunto de ferramentas para descoberta de medicamentos construída sobre a arquitetura anterior Gemma 2 e o Dolphingemma altamente especializado. Este último é uma colaboração única com o projeto de golfinhos selvagens para analisar décadas de gravações de golfinhos, tentando encontrar padrões na comunicação animal-uma tarefa que ultrapassa os limites da aplicação da IA. reuniu-se com entusiasmo por sua usabilidade imediata. O desenvolvedor independente Simon Willison elogiou a natureza abrangente do lançamento, chamando-o de”Gemma 3N também é o lançamento mais abrangente do primeiro dia que eu já vi para qualquer modelo”. No teste prático detalhado em seu blog , Willison destacou o suporte amplo e diurno de ferramentas populares como ollama e mlx. Enquanto ele usou com sucesso uma versão do modelo para transcrição de áudio, ele também observou algumas peculiaridades iniciais, com o modelo não descrevendo corretamente uma imagem que acabara de gerar. 3n Impact Challenge , uma competição com US $ 150.000 em prêmios para desenvolvedores que usam os novos modelos para construir produtos para o bem social. Os modelos apresentam um codificador de áudio avançado baseado no Modelo de fala universal (USM) e um novo padrão de visualização do PSIFT, que pode processar o PSOIX, o que pode processar o PSOMP, o que pode processar o PSOIX, o que pode processar o PSOMP, o que pode processar o PSOIX, o que pode processar o PETMES, o que pode processar o Ponte, o que pode processar o Ponte. A eficiência e a energia produziram resultados impressionantes nas tabelas de classificação. A maior variante Gemma 3N E4B é o primeiro modelo com menos de 10 bilhões de parâmetros a atingir uma pontuação LMARENA de mais de 1300, uma referência que mede o desempenho com base nas preferências humanas.

Ao engenharia um poderoso modelo multimodal que pode viver com os dispositivos que as pessoas usam todos os dias, o Google não está apenas lançando uma nova ferramenta, mas está fazendo uma declaração clara. A medida desafia a noção de que a IA de ponta deve residir exclusivamente na nuvem, capacitando uma nova onda de desenvolvedores a construir a próxima geração de aplicações inteligentes, privadas e acessíveis.

Categories: IT Info