Meta heeft LLAMA 4 Scout en LLAMA 4 Maverick, twee open-weight frontier grote taalmodellen uitgebracht die grote architecturale veranderingen introduceren, terwijl de aanwezigheid van het bedrijf wordt uitgebreid met de consumenten-apps en cloudplatforms.
Beide modellen zijn ontworpen met een native multimodale structuur en een winterse mixt-of-perperts (MOE) System, met verkenningsgewerkt voor single en maverprise voor single-perprise en maverick-target en maverick-target en maverick-target en maverick-target en maverick-target en maverick-target en maverick-target en maverick-target en maverick. Workloads.
Het bedrijf heeft ook een 2-biljoen parameter lerarenmodel onthuld-llama 4 kolos-stevig nog steeds in training, en een multimodaal vision-model, lama 4-V, om later te volgen.
Terwijl Scout is gebouwd om op een enkele H100 GPU te passen via INT4-kwantisatie, biedt het nog steeds een best-in-class 10 miljoen tokencontextlengte, een tienvoudige sprong over eerdere modellen. Het beschikt over 17 miljard actieve parameters met 16 experts en 109 miljard totale parameters.
Maverick deelt dezelfde actieve parameterscijfer maar schaalt de MOE-opstelling naar 128 experts en 400 miljard totale parameters, waardoor geavanceerdere redenering en beeldverbindingstaken mogelijk zijn. Beide modellen verwerken afbeeldingen en tekst gezamenlijk door vroege fusie-een methode waarbij beide tokentypen tijdens het opraining in hetzelfde backbone-model zijn ingebed.
Als onderdeel van het ontwerp van het systeemniveau, werden modellen getraind op maximaal 48 afbeeldingen per voorbeeld, met verkenning getest na de training op slechts acht. Deze visuele aarding maakt mogelijkheden mogelijk zoals objectlokalisatie en verbeterde afstemming tussen beeldinhoud en taalprompts. Volgens META is”LLAMA 4 Scout de beste in de klas op afbeelding, in staat om gebruikersprompts uit te lijnen met relevante visuele concepten en ankermodelreacties op regio’s in de afbeelding.”
benchmarkprestaties: Scout, Maverick en Behemoth
4 maverick is gepositioneerd door meta Assistent en interne benchmarks weerspiegelen die claim. Bij visuele redeneringstaken bereikt het 90.0 op ChartQA en 94.4 op DocvQA, wat beter presteert dan GPT-4O als Gemini 2.0 Flash. Het registreert ook 73.7 op Mathvista en 80.5 op MMLU Pro, wat duidt op sterke algemene redeneermogelijkheden.
In programmeertaken scoort Maverick 43.4 op LiveCodebench, waardoor het voor GPT-4O en Gemini 2.0 Flash wordt geplaatst en net onder deepseek v3.1. De assistent-prestaties worden versterkt door een ELO-rating van 1417 op Lmarena. Voor kostenefficiëntie schat meta de inferentiekosten tussen $ 0,19-$ 0,49 per miljoen tokens onder een 3: 1 input-outputmengsel.
Bron: meta
lama 4 scout , hoewel kleiner in schaal, houdt zijn eigen van modellen in de klasse. Het scoort 88.8 op Chartqa, Matching Maverick met 94.4 op DocvQA en bereikt 74.3 op MMLU Pro. Deze resultaten benadrukken de effectiviteit ervan in visuele en redenerende benchmarks, met name voor lichtgewicht of single-GPU-implementaties.
De hoge scorepariteit met grotere modellen in beeldtaken geeft sterke ontwerpoptimalisaties aan, vooral voor use cases die contextrijk multimodaal begrip vereisen, maar minder infrastructuuroverhead.
Bron: Meta
LLAMA 4 Behemoth blijft niet vrijgegeven, maar diende als het lerarenmodel voor codistillatie van Maverick en Scout. Met 288 miljard actieve parameters en bijna 2 biljoen in totaal plaatst de prestaties het in het bovenste echelon van huidige LLMS. Meta rapporteert benchmarkscores van 95.0 op MATH-500, 82.2 op MMLU Pro, 73.7 op GPQA Diamond en 85,8 op meertalige MMLU.
Deze scores geven aan dat kolos Claude Sonnet 3.7, Gemini 2.0 Pro en GPT-4.5 in STEM-en meertalige redeneringstaken overtreft, die zijn rol als basis versterkt voor de kleinere LLAMA 4-modellen.
trainingstrategie en nieuwe architecturen
lama 4 markeert het eerste gebruik van MOE-lagen van MOE-lagen afgewisseld met dichte lagen in productiemodellen. Slechts een klein deel van de parameters wordt geactiveerd per token, waardoor de efficiëntie wordt verbeterd zonder de kwaliteit aanzienlijk te beïnvloeden. Elk Maverick-token wordt gerouteerd naar een van de 128 experts plus een gedeelde expert, waarbij alle experts in het geheugen zijn geladen maar selectief geactiveerd tijdens de inferentie.
Meta heeft ook een nieuw positioneel coderingsschema geïmplementeerd genaamd IROPE-Interleaved Rotary Positional Embdings-dat de behoefte aan vaste positionele TOKENS en Improves Long-Context Generalization heeft geïmplementeerd.”We noemen dit de Irope-architectuur, waar‘ I ’staat voor‘ interleaved ’aandachtlagen, wat het doel op de lange termijn benadrukt om‘ oneindige ’contextlengte te ondersteunen.”
Scout en Maverick waren beide pre-en post-getraind met 256K contextvensters om aanpassing te verbeteren aan langere sequenties. Het bedrijf gebruikte FP8-precisie voor training om de doorvoer te vergroten, waarbij 390 TFLOPS per GPU werd bereikt tijdens de pretraining van Behemoth over 32K GPU’s. METAP, een systeem voor het dynamisch schalen van initialisatie en leersnelheden, werd gebruikt om hyperparameterafstemming te generaliseren over verschillende modelgroottes en batchconfiguraties.
Beschikbaarheid van cloud> Beschikbaarheid en licentieveranderingen
Meta maakt LLAMA 4 Scout LLAMA 4 Maver Lama 4 Maver beschikbaar voor het downloaden van LLAMA.com en HUGNING Face. Voor de lancering werkte Meta samen met grote cloudproviders om de acceptatie te versnellen. AWS heeft al LLAMA 4 Scout en LLAMA 4 Maverick toegevoegd aan Amazon Sagemaker Jumpstart , met bedrockondersteuning verwacht binnenkort. Simultaneously, Microsoft rolled out support through Azure AI Foundry and Azure Databricks.
These integrations Bied ontwikkelaars directe toegang tot vooraf geconfigureerde API’s voor verfijning en gevolgtrekking, waardoor de tijd-tot-implementatie in productieomgevingen wordt verminderd.
Licenties is ook verschoven. In tegenstelling tot eerdere LLA-modellen, die voornamelijk bedoeld waren voor niet-commercieel onderzoek, worden de nieuwe modellen uitgebracht onder een aangepaste commerciële licentie. Meta beschrijft het als flexibel, hoewel het stopt met de volledige open-source status.
Systeemniveau veiligheid en biasreductie
Naast zijn modelverbeteringen benadrukte Meta een reeks waarborgen. llama bewaker , een input/output classifier op basis van een risico-taxiomie van mlcommons, is opgenomen op het gebied van schadelijke inhoud. Prompt bewaker, getraind op een breed scala aan aanvalstypen, is ontworpen om jailbreak-pogingen en snelle injecties te vangen. Cyberseceval helpt ontwikkelaars AI-modellen te testen tegen cybersecurity-bedreigingen.
Meta introduceerde ook een nieuw rood-teamkader genaamd geit-generatief offensief agent testen. Deze tool simuleert multi-turn gesprekken met medium-geschoolde tegenstanders, waardoor meta de testdekking van het testen helpt te vergroten en kwetsbaarheden efficiënter te ontdekken.
Bias blijft een kernproblemen. In tests over politiek geladen onderwerpen zijn de weigeringspercentages in LLAMA 4 gedaald tot minder dan 2%-down van 7% in Lama 3,3. Ongelijke weigering van de respons tussen ideologieën dalen nu onder 1%. Meta zegt dat het werkt aan modellen die verschillende gezichtspunten kunnen vertegenwoordigen zonder een houding op te leggen.
Ecosysteemintegratie en toekomstige routekaart
LLAMA 4 Scout en Maverick zijn al live in Meta AI-functies in Meta AI-functies over WhatsApp, Messenger, Instagram Direct en de webinterface. These integrations offer a broad testbed to evaluate performance in the wild, while simultaneously exposing the models to vast user input streams that could inform future improvements.
Looking ahead, Meta is set to showcase more details at LlamaCon on April 29. Onderwerpen omvatten verder schaling van het kolosmodel en de introductie van LLAMA 4-V, een volledig multimodaal vision-taalmodel dat zowel statische als temporele visuele ingangen kan verwerken. De aankondiging onderstreept het doel van Meta om systemen te leveren die niet alleen taalkundig competent zijn, maar ook in staat zijn tot multimodale redenering met high-fidelity. De LLAMA 4-modellen zijn niet volledig open-source, maar ze bieden een zekere transparantie en flexibiliteit die tussen puur gesloten systemen en gemeenschapsgestuurde modellen zit. Hun implementatie tussen miljarden eindpunten-van cloud-API’s tot berichten-apps-zou de verwachtingen van ontwikkelaars rond schaal, prestaties en verantwoord gebruik in de komende maanden kunnen vormen.