Meta har släppt Llama 4 Scout och Llama 4 Maverick, två öppna gränser med öppen vikt som introducerar stora arkitektoniska förändringar samtidigt som företagets närvaro och molnplattformar utökar och en sparken-mållösning (MOE)-systemet. Arbetsbelastningar.

Företaget har också avslöjat en 2-biljoner parameterlärarmodell-tell 4 behemoth-för närvarande fortfarande i träning, och en multimodal visionmodell, lama 4-V, för att följa senare.

>

Medan Scout är byggd för att passa på en enda H100 GPU via INT4-kvantisering, erbjuder den fortfarande en bästa klass på 10 miljoner token, ett tiofaldigt hopp över tidigare modeller. Den har 17 miljarder aktiva parametrar med 16 experter och 109 miljarder totala parametrar.

Maverick delar samma aktiva parameterantal men skalar MOE-inställningen till 128 experter och 400 miljarder totala parametrar, vilket möjliggör mer sofistikerade resonemang och bildförståelseuppgifter. Båda modellerna bearbetar bilder och text gemensamt genom tidig fusion-en metod där båda token-typer är inbäddade i samma ryggradsmodell under fördröjning.

Som en del av Metas systemnivådesign tränades modeller på upp till 48 bilder per exempel, med scouttestad efterträning på så många som åtta. Denna visuella jordning möjliggör kapacitet som objektlokalisering och förbättrad anpassning mellan bildinnehåll och språkuppmaningar. According to Meta, “Llama 4 Scout is best-in-class on image grounding, able to align user prompts with relevant visual concepts and anchor model responses to regions in the image.”

Benchmark Performance: Scout, Maverick, and Behemoth

Llama 4 Maverick is positioned by Meta as a high-performance Multimodal assistent och interna riktmärken återspeglar detta påstående. På visuella resonemangsuppgifter uppnår den 90,0 på ChartQA och 94,4 på DOCVQA, vilket överträffar både GPT-4O och Gemini 2.0 Flash. Den loggar också 73,7 på MathVista och 80,5 på MMLU Pro, vilket indikerar starka allmänna resonemang.

Vid programmeringsuppgifter poängterar Maverick 43.4 på LiveCodebench, placerade den före GPT-4O och Gemini 2.0 Flash, och strax under Deepseek v3.1. Dess assistentprestanda förstärks av ett ELO-betyg på 1417 på LMarena. För kostnadseffektivitet uppskattar Meta-slutsatser mellan $ 0,19– $ 0,49 per miljon tokens under en inmatningsblandning på 3: 1.

Källa: Meta

Llama 4 Scout , medan mindre i skala, håller sin egen bland modeller i sin klass. Den får 88,8 på ChartQA, matchande Maverick med 94,4 på DocvQA och når 74,3 på MMLU PRO. Dessa resultat belyser dess effektivitet i visuella och resonemangs riktmärken, särskilt för lätta eller en-GPU-distributioner.

dess höga poängparitet med större modeller i bilduppgifter signalerar starka designoptimeringar, särskilt för användningsfall som kräver kontextrik multimodal förståelse men mindre infrastrukturöverskridande.

Source: Meta

Llama 4 Behemoth förblir inte utgivet men fungerade som lärarmodellen för kodistillation av Maverick och Scout. Med 288 miljarder aktiva parametrar och nästan 2 biljoner totalt placerar dess prestanda den i den övre echelon av nuvarande LLMS. META rapporterar Benchmark-poäng på 95,0 på Math-500, 82.2 på MMLU PRO, 73,7 på GPQA-diamant och 85,8 på flerspråkig MMLU.

Dessa poäng indikerar att Behemoth överträffar Claude Sonnet 3.7, Gemini 2.0 Pro och GPT-4,5 i STEM och flerspråkiga resonemang, förstärker dess roll som grunden för de mindre Llama 4-modellerna.

källa: källa: källa: källa: Meta

Träningsstrategi och nya arkitekturer

llama 4 markerar Metas första användning av Moe-lager isär med täta lager i produktionsmodeller. Endast en liten bråkdel av parametrarna aktiveras per token, vilket förbättrar effektiviteten utan att påverka kvaliteten betydligt. Varje Maverick-token dirigeras till en av 128 experter plus en delad expert, med alla experter laddade i minnet men selektivt aktiverat under slutsatser.

meta implementerade också ett nytt positionskodningsschema som kallas Irope-Interleevered Rotary Positional Embeddings-de sjunker behovet av fast positionskokare och förbättringar långa kappor.”Vi kallar detta irope-arkitekturen, där’jag’står för’interfolaved’uppmärksamhetslager, och belyser det långsiktiga målet att stödja’oändlig’sammanhangslängd.”

Scout och Maverick var både för-och eftertränade med 256K-kontextfönster för att förbättra anpassningen till längre sekvenser. Företaget använde FP8 Precision för utbildning för att öka genomströmningen och uppnådde 390 TFLOPS per GPU under Behemoths förutbildning över 32K GPU: er. Metap, ett system för dynamiskt skalning av initialisering och inlärningshastigheter, användes för att generalisera hyperparameterinställning över olika modellstorlekar och batchkonfigurationer.

Molntillgänglighet och licensförändringar

meta är att göra lama 4 scout llama 4 maverick tillgängligt för nedladdning på llama.com och kramar. För lanseringen samarbetade Meta med stora molnleverantörer för att påskynda adoption. AWS har redan lagt till Llama 4 Scout och Llama 4 Maverick till Amazon Sagemaker jumpstart , med Bedrock-stöd förväntat snart. Simultaneously, Microsoft rolled out support through Azure AI Foundry and Azure Databricks.

These integrations Ge utvecklare direkt tillgång till förkonfigurerade API: er för finjustering och inferens, vilket minskar tid till distribution i produktionsmiljöer.

licensiering har också förändrats. Till skillnad från tidigare Llama-modeller, som främst var avsedda för icke-kommersiell forskning, släpps de nya modellerna under en anpassad kommersiell licens. Meta beskriver det som flexibelt, även om det slutar inte med full öppen källkodsstatus.

Systemnivå säkerhets-och partisk minskning

Vid sidan av sina modellförbättringar betonade Meta en svit med skyddsåtgärder. llama Guard , en inmatning/output classifier baserat på en riskbaxonomi från mlcommon, är inkluderad till det att detektera innehåll. Prompt Guard, tränad på ett brett utbud av attacktyper, är utformad för att fånga jailbreakförsök och snabba injektioner. Cyberseceval hjälper utvecklare att testa AI-modeller mot cybersecurity-hot.

meta introducerade också en ny röda lagande ram som kallas get-generativ offensiv agenttestning. Det här verktyget simulerar flera svängssamtal med medelkvalificerade motståndare, vilket hjälper meta att öka testtäckningen och avslöja sårbarheter mer effektivt.

partiskhet förblir ett kärnproblem. I tester på politiskt laddade ämnen har vägran i Llama 4 sjunkit till under 2%-ner från 7% i Llama 3.3. Ojämlika svar från ideologier faller nu under 1%. Meta säger att den arbetar mot modeller som kan representera olika synpunkter utan att påtvinga en hållning.

ekosystemintegration och framtida färdplan

Llama 4 Scout och Maverick är redan live i Meta AI-funktioner över WhatsApp, Messenger, instagram Direct, och webbinterface. Dessa integrationer erbjuder en bred testbädd för att utvärdera prestanda i naturen, samtidigt som man utsätter modellerna för stora användarinmatningsströmmar som kan informera framtida förbättringar.

ser framåt, Meta är inställd på att visa upp mer detaljer på lll på april. Ämnen kommer att inkludera ytterligare skalning av Behemoth-modellen och introduktionen av Llama 4-V, en helt multimodal vision-språkmodell som kan hantera både statiska och temporära visuella ingångar. Tillkännagivandet understryker Metas mål att leverera system som inte bara är språkligt kompetenta, utan också kapabla till multimodal resonemang med hög tro. Llama 4-modellerna är inte helt öppen källkod, men de erbjuder en grad av transparens och flexibilitet som ligger mellan rent stängda system och samhällsdrivna modeller. Deras distribution över miljarder slutpunkter-från moln-API: er till meddelanden-appar-kunde forma utvecklarens förväntningar runt omfattning, prestanda och ansvarsfull användning under de kommande månaderna.