Meta lançou Llama 4 Scout e Llama 4 Maverick, dois modelos de linguagem de grande porte de pesos abertos que introduzem grandes mudanças arquitetônicas enquanto expandem a presença da empresa em aplicativos de consumo e plataformas de nuvem. Cargas de trabalho. src=”Dados: imagem/svg+xml; nitro-ignoros-id=mtcwmzoxntk0-1; base64, phn2zyb2awv3qm94psiWidAgMtaynca4nz Qiihdpzhropsixmdi0iiBozwlnahq9ijg3ncigEg1sbnm9Imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Enquanto o Scout é construído para se encaixar em uma única GPU H100 via quantização INT4, ele ainda oferece um comprimento de contexto de 10 milhões de token da categoria, um salto de dez vezes sobre os modelos anteriores. Possui 17 bilhões de parâmetros ativos com 16 especialistas e 109 bilhões de parâmetros totais. Ambos os modelos processam imagens e o texto em conjunto através da fusão precoce-um método em que ambos os tipos de token são incorporados no mesmo modelo de backbone durante o pré-treinamento. Esse aterramento visual permite recursos, como localização de objetos e maior alinhamento entre o conteúdo da imagem e os avisos da linguagem. De acordo com a Meta, “Llama 4 Scout é a melhor classe no aterramento da imagem, capaz de alinhar os avisos do usuário com conceitos visuais relevantes e respostas do modelo de ancoragem às regiões da imagem.”
Desempenho de referência: Scout, Maverick e Behemoth
lllama 4 maverick e gheemoth
Assistente multimodal e benchmarks internos refletem essa reivindicação. Nas tarefas de raciocínio visual, ele atinge 90.0 no ChartQA e 94.4 no DOCVQA, superando o GPT-4O e o Gemini 2.0 Flash. Ele também registra 73.7 em Mathvista e 80,5 no MMLU Pro, indicando fortes recursos gerais de raciocínio.
Nas tarefas de programação, o Maverick obtém 43.4 no LivecodeBench, colocando-o à frente do GPT-4O e Gemini 2.0 Flash e logo abaixo do Deepseek v3.1. Seu desempenho assistente é reforçado por uma classificação ELO de 1417 em Lmarena. Para eficiência de custo, meta estima os custos de inferência entre US $ 0,19 a US $ 0,49 por milhão de tokens sob uma mistura de 3: 1 de entrada de saída. Ele obtém 88,8 no ChartQa, combinando Maverick com 94,4 no docvqa, e atinge 74,3 no MMLU Pro. Esses resultados destacam sua eficácia nos benchmarks visuais e de raciocínio, principalmente para implantações leves ou de GPU único.
Sua paridade de pontuação alta, com modelos maiores nas tarefas de imagem, sinalizam fortes otimizações de design, especialmente para casos de uso que requerem entendimento multimodal rico em contexto, mas menos sobrecarga de infraestrutura.
fonte: fonte: Meta
llama 4 Behemoth permanece inédita, mas serviu como modelo de professor para a codistilação de Maverick e Scout. Com 288 bilhões de parâmetros ativos e quase 2 trilhões de total, seu desempenho o coloca no escalão superior dos LLMs atuais. META RELATÓRIOS Pontuações de referência de 95,0 em Math-500, 82,2 no MMLU Pro, 73,7 em diamante GPQA e 85,8 no MMLU multilíngue.
Esses escores indicam que o gigante ultrapassa o claude Sonnet 3.7, Gemini 2.0 Pro e GPT-4.5 em tarefas de raciocínio com STEM e multilíngue, reforçando seu papel como base para os modelos menores de llama 4. src=”Data: imagem/svg+xml; nitro-inempty-id=mtcyntoxntgx-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1ndiiih dpzhropsixmdi0iiBozwlnaHQ9iJU0MIIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”> fonte: META
Estratégia de treinamento e novas arquiteturas
llama 4 marca o primeiro uso de camadas de MOE de Meta intercaladas com camadas densas em modelos de produção. Apenas uma pequena fração dos parâmetros é ativada por token, melhorando a eficiência sem afetar significativamente a qualidade. Cada token do Maverick é roteado para um dos 128 especialistas, além de um especialista compartilhado, com todos os especialistas carregados na memória, mas ativados seletivamente durante a inferência.”Chamamos isso de arquitetura do irope, onde’eu’significa camadas de atenção’intercaladas’, destacando o objetivo de longo prazo de apoiar o comprimento do contexto’infinito’.”
Scout e Maverick foram pré e pós-treinados com janelas de contexto de 256k para melhorar a adaptação a sequências mais longas. A empresa usou a precisão do FP8 para o treinamento para aumentar a taxa de transferência, alcançando 390 TFLOPS por GPU durante a pré-treinamento de Behemoth em 32K GPUs. Metap, um sistema para escalar dinamicamente as taxas de inicialização e aprendizado, foi usado para generalizar o ajuste de hiperparâmetro em tamanhos de modelos e configurações de lote variadas. Para o lançamento, a Meta fez uma parceria com os principais provedores de nuvem para agilizar a adoção. A AWS já acrescentou Llama 4 Scout e Llama 4 Maverick a Amazon Sagemaker Jumpstart , com o apoio da rocha esperado em breve. Simultaneamente, a Microsoft lançou o suporte através de Blanks. Desenvolvedores com acesso direto a APIs pré-configuradas para ajuste fino e inferência, reduzindo o tempo de implantação em ambientes de produção.
O licenciamento também mudou. Ao contrário dos modelos anteriores de llama, destinados principalmente a pesquisas não comerciais, os novos modelos são lançados sob uma licença comercial personalizada. A meta descreve como flexível, embora pare com o status completo de fonte aberta. llama guarda , um insumo/classificador de saída baseado em uma taxonomia de risco. O guarda rápido, treinado em uma ampla gama de tipos de ataque, foi projetado para obter tentativas de jailbreak e injeções prontas. A cyberseceval ajuda os desenvolvedores a testar os modelos de IA contra ameaças de segurança cibernética.
A meta também introduziu uma nova estrutura de equipe vermelha chamada Goat-testes de agentes ofensivos generativos. Essa ferramenta simula conversas com várias turnos com atores adversários médios, ajudando a meta a aumentar a cobertura de testes e a descobrir vulnerabilidades com mais eficiência.
O viés continua sendo uma preocupação central. Nos testes sobre tópicos politicamente carregados, as taxas de recusa no LLAMA 4 caíram para menos de 2%-de 7% no LLAMA 3.3. As recusas desiguais de resposta nas ideologias agora caem abaixo de 1%. A Meta diz que está trabalhando em direção a modelos que podem representar diversos pontos de vista sem impor uma posição. Essas integrações oferecem um amplo teste para avaliar o desempenho na natureza, enquanto exponha simultaneamente os modelos a vastos fluxos de entrada do usuário que podem informar melhorias futuras. Os tópicos incluirão a escala adicional do modelo gigante e a introdução do LLAMA 4-V, um modelo de linguagem de visão totalmente multimodal capaz de lidar com entradas visuais estáticas e temporais. O anúncio ressalta o objetivo da Meta de fornecer sistemas que não são apenas linguisticamente competentes, mas também capazes de raciocínio multimodal de alta fidelidade. Os modelos LLAMA 4 não são totalmente abertos, mas oferecem um grau de transparência e flexibilidade que fica entre sistemas puramente fechados e modelos orientados para a comunidade. Sua implantação em bilhões de pontos de extremidade-de APIs em nuvem a aplicativos de mensagens-poderia moldar as expectativas do desenvolvedor em torno da escala, desempenho e uso responsável nos próximos meses.