Meta ha rilasciato Llama 4 Scout e Llama 4 Maverick, due modelli in linguaggio di grandi dimensioni a peso aperto che introducono importanti cambiamenti architettonici mentre si espande la presenza dell’azienda attraverso le app di consumo e le piattaforme cloud. Carichi di lavoro.
La società ha anche rivelato un modello di insegnante di parametri di 2 trilioni-LAMA 4 BEAKEMO-ATTENZIONE ALL’ATTUALI IN FORMAZIONE E UN MODELLO DI VISION MULTIMODALE, LLAMA 4-V, da seguire più avanti.
Mentre Scout è costruito per adattarsi a una singola GPU H100 tramite la quantizzazione INT4, offre ancora una lunghezza del contesto di 10 milioni di token di classe, un balzo di dieci volte rispetto ai modelli precedenti. Presenta 17 miliardi di parametri attivi con 16 esperti e 109 miliardi di parametri totali.
Maverick condivide lo stesso conteggio dei parametri attivo ma ridimensiona la configurazione MOE a 128 esperti e 400 miliardi di parametri totali, consentendo un ragionamento più sofisticato e le attività di comprensione delle immagini. Entrambi i modelli elaborano le immagini e il testo congiuntamente attraverso la fusione precoce: un metodo in cui entrambi i tipi di token sono incorporati nello stesso modello di spina dorsale durante la pretrattamento.
Come parte del design a livello di sistema di Meta, i modelli sono stati addestrati su un massimo di 48 immagini per esempio, con scout testato post-training su solo otto. Questa messa a terra visiva consente funzionalità come la localizzazione degli oggetti e un miglioramento dell’allineamento tra i suggerimenti del contenuto dell’immagine e il linguaggio. According to Meta, “Llama 4 Scout is best-in-class on image grounding, able to align user prompts with relevant visual concepts and anchor model responses to regions in the image.”
Benchmark Performance: Scout, Maverick, and Behemoth
Llama 4 Maverick is positioned by Meta as a high-performance L’assistente multimodale e i benchmark interni riflettono tale affermazione. Sulle attività di ragionamento visivo, raggiunge 90.0 su ChartQA e 94.4 su DocVQA, sovraperformando sia GPT-4O che Gemini 2.0 Flash. Registra anche 73.7 su MathVista e 80,5 su MMLU Pro, indicando forti capacità di ragionamento generale.
In attività di programmazione, Maverick segna 43.4 su Livecodebench, posizionandolo davanti a GPT-4O e Gemini 2.0 Flash e appena sotto DeepSeek V3.1. La sua performance assistente è rafforzata da una valutazione ELO del 1417 su LMarena. Per l’efficienza in termini di costi, i costi di inferenza dei meta stimano tra $ 0,19 e $ 0,49 per milione di token in una miscela input-output 3: 1. Fonte
: Meta
Llama 4 Scout , sebbene più piccolo di scala, tiene i propri tra i modelli nella sua classe. Segna 88,8 su ChartQA, abbinando Maverick con 94,4 su DocVQA e raggiunge 74,3 su MMLU PRO. Questi risultati evidenziano la sua efficacia nei benchmark visivi e di ragionamento, in particolare per le distribuzioni leggere o single-GPU.
La sua parità di punteggio elevato con modelli più grandi nelle attività delle immagini segnala forti ottimizzazioni di progetta src=”Dati: immagine/svg+xml; nitro-empty-id=mtcxNDoxOdq3-1; base64, pHn2zyb2awv3qm94psiwidagmtaynca3mjuiih dpzhropixmdi0iibozwlnahq9ijcynsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Fonte: Meta
Llama 4 Behemoth rimane inedito ma è stato il modello dell’insegnante per la codillazione di Maverick e Scout. Con 288 miliardi di parametri attivi e quasi 2 trilioni in totale, le sue prestazioni lo collocano nella scavatura superiore degli attuali LLM. Punteggi di riferimento Meta Reports di 95,0 su Math-500, 82.2 su MMLU Pro, 73,7 su diamante GPQA e 85,8 su MMLU multilingue.
Questi punteggi indicano che Behemoth supera Claude Sonnet 3.7, Gemini 2.0 Pro e GPT-4.5 nelle attività di ragionamento multilingue, rafforzando il suo ruolo di base per i modelli Llama 4 più piccoli.
fonte: fonte: Meta
strategia di allenamento e nuove architetture
Llama 4 segna il primo uso di Meta di strati MOE intervallati da strati densi nei modelli di produzione. Viene attivata solo una piccola parte dei parametri per token, migliorando l’efficienza senza influenzare significativamente la qualità. Ogni token Maverick viene instradato a uno dei 128 esperti più un esperto condiviso, con tutti gli esperti caricati in memoria ma attivati selettivamente durante l’inferenza.
Meta ha anche implementato un nuovo schema di codifica posizionale chiamato Irope: incorporazioni posizionali rotanti interleate-che rilascia la necessità di token posizionali fissi e migliorano la generalizzazione a lungo termine.”Lo chiamiamo l’architettura Irope, in cui”I”sta per strati di attenzione”interlacciati”, evidenziando l’obiettivo a lungo termine di supportare la lunghezza del contesto”infinita”.”
scout e Maverick erano sia pre e post addestrati con finestre di contesto di 256k per migliorare l’adattamento alle sequenze più lunghe. La società ha utilizzato la precisione FP8 per l’addestramento per aumentare il throughput, raggiungendo 390 TFLOP per GPU durante la pretrattamento di Behemoth su 32K GPU. Metap, un sistema per il ridimensionamento dinamico dell’inizializzazione e le tariffe di apprendimento, è stato utilizzato per generalizzare la messa a punto iperparametro attraverso diverse dimensioni di modelli e configurazioni batch.
Cloud Disponibilità e modifiche alla licenza
Meta sta rendendo Llama 4 Scout Llama 4 Maverick disponibile per il download su Llama.com e abbraccio. Per il lancio, Meta ha collaborato con i principali fornitori di cloud per accelerare l’adozione. AWS ha già aggiunto Llama 4 Scout e Llama 4 Maverick a Amazon SageMaker JumpStart , con il supporto del letto previsto presto. Contemporaneamente, Microsoft ha implementato il supporto tramite azure ai found e azure databricks . Le integrazioni forniscono agli sviluppatori l’accesso diretto alle API preconfigurate per la messa a punto e l’inferenza, riducendo il tempo a de-distribuzione in ambienti di produzione. Anche le licenze
sono state spostate. A differenza dei precedenti modelli Llama, che erano principalmente destinati alla ricerca non commerciale, i nuovi modelli sono rilasciati con licenza commerciale personalizzata. Meta lo descrive come flessibile, sebbene si fermi a corto di stato aperto.
Sicurezza a livello di sistema e riduzione della distorsione
insieme ai suoi miglioramenti del modello, Meta ha sottolineato una suite di salvaguardie. Llama Guard , un classificatore input/output basato su un tassonomio di rischi da mlcommons, è incluso per il contenuto di danni. La guardia rapida, addestrata su una vasta gamma di tipi di attacco, è progettata per catturare i tentativi di jailbreak e le iniezioni rapide. Cyberseceval aiuta gli sviluppatori a testare i modelli di intelligenza artificiale contro le minacce alla sicurezza informatica.
Meta ha anche introdotto un nuovo framework di team rossi chiamato Goat: test di agenti offensivi generativi. Questo strumento simula conversazioni multi-svolta con attori contraddittimi di media qualificato, aiutando a aumentare la copertura dei test e scoprire le vulnerabilità in modo più efficiente.
Bias rimane una preoccupazione fondamentale. Nei test su argomenti politicamente accusati, i tassi di rifiuto nel Llama 4 sono scesi a meno del 2%, dal 7% nel LAMA 3,3. I rifiuti di risposta ineguale tra le ideologie ora scendono al di sotto dell’1%. Meta afferma che sta lavorando verso modelli in grado di rappresentare diversi punti di vista senza imporre una posizione.
L’integrazione dell’ecosistema e la futura roadmap
Llama 4 Scout e Maverick sono già in diretta in caratteristiche di Meta AI attraverso Whatsapp, Messenger, Instagram diretto e l’interfaccia Web. Queste integrazioni offrono un ampio test di prova per valutare le prestazioni in natura, esponendo contemporaneamente i modelli a vasti flussi di input degli utenti che potrebbero informare i miglioramenti futuri.
Guardando al futuro, Meta è impostato per mostrare maggiori dettagli su llamon su aprile 29… Gli argomenti includeranno un ulteriore ridimensionamento del modello di behemoth e l’introduzione di Llama 4-V, un modello di lingua visiva completamente multimodale in grado di gestire input visivi sia statici che temporali. L’annuncio sottolinea lo scopo di Meta di fornire sistemi che non sono solo linguisticamente competenti, ma anche in grado di ragionamento multimodale ad alta fedeltà.
La posizione di Meta nell’ecosistema a peso aperto rimane sfumata. I modelli Llama 4 non sono completamente open-source, ma offrono un grado di trasparenza e flessibilità che si trova tra sistemi puramente chiusi e modelli guidati dalla comunità. La loro distribuzione tra miliardi di endpoint-dalle API cloud alle app di messaggistica-potrebbe modellare le aspettative degli sviluppatori attorno alla scala, alle prestazioni e all’utilizzo responsabile nei mesi a venire.