Meta hat LLAMA 4 Scout und Lama 4 Maverick veröffentlicht, zwei Open-Gewicht-Grenze-Großsprachmodelle, die wichtige architektonische Veränderungen einführen und gleichzeitig die Präsenz des Unternehmens über Verbraucher-Apps und Cloud-Plattformen hinweg erweitern. Arbeitsbelastungen. Src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mtcwmzoxntk0-1; Base64, Phn2ZyB2AWV3QM94psiwidagmtaynca4nz Qiihdpzhropsixmdi0iibozwlnahq9ijg3ncigg1Sbnm9imH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>
Während Scout über Int4-Quantisierung auf eine einzelne H100-GPU erstellt wurde, bietet sie weiterhin eine erstklassige 10-Millionen-Token-Kontextlänge, einen zehnfachen Sprung über frühere Modelle. Es verfügt über 17 Milliarden aktive Parameter mit 16 Experten und 109 Milliarden Gesamtparametern. Beide Modelle verarbeiten Bilder und Text gemeinsam durch frühe Fusion-eine Methode, bei der beide Token-Typen während der Vorbereitung in das gleiche Rückgratmodell eingebettet sind. Diese visuelle Erdung ermöglicht Funktionen wie Objektlokalisierung und verbesserte Ausrichtung zwischen Bildinhalt und Sprachaufforderungen. Laut Meta ist „LLAMA 4 Scout für die Bildfundierung am besten und in der Lage, Benutzeraufforderungen an relevante visuelle Konzepte und Ankermodellreaktionen auf Regionen im Bild auszurichten. Multimodaler Assistent und interne Benchmarks spiegeln diese Behauptung wider. Bei visuellen Argumentationsaufgaben erreicht es 90,0 in Chartqa und 94,4 auf Docvqa und übertreffen sowohl GPT-4O-als auch Gemini 2.0-Flash. Es loget sich auch 73.7 auf Mathvista und 80,5 auf MMLU Pro an, was auf starke allgemeine Argumentationsfunktionen hinweist.
In Programmieraufgaben bewertet Maverick 43,4 auf LivecodeBench und platziert es vor GPT-4O und Gemini 2.0 Flash und knapp unter Deekseek v3.1. Seine Assistentenleistung wird durch eine ELO-Bewertung von 1417 auf Larena verstärkt. Für die Kosteneffizienz kostet Meta-Schätzungen die Inferenz zwischen 0,19 und 0,49 USD pro Million Token unter einer 3: 1-Mischung aus der Input-Output. Es punktet 88,8 in ChartQA, entspricht Maverick mit 94,4 auf Docvqa und erreicht 74,3 auf MMLU Pro. Diese Ergebnisse unterstreichen ihre Effektivität in visuellen und argumentativen Benchmarks, insbesondere für leichte oder gPU-Bereitstellungen.
Parität mit hoher Punktzahl mit größeren Modellen in Bildaufgaben signalisiert starke Designoptimierungen, insbesondere für Anwendungsfälle, die ein kontextreiches multimodales Verständnis erfordern, aber weniger Infrastrukturaufwand. src=”Daten: Bild/SVG+XML; Nitro-Treum-ID=Mtcxndoxodq3-1; Base64, Phn2zyb2AWV3QM94psiwidagmtaynca3mjuiih dpzhropsixmdi0iibozwlnahq9ijcynsigg1sbnm9imh0dha6ly93d3cudzMub3jnlziwmdavc3znij48l3n2zz4=”> Quelle: Meta
Lama 4-Gigant bleibt unveröffentlicht, diente aber als Lehrermodell für die Codistillation von Maverick und Scout. Mit 288 Milliarden aktiven Parametern und insgesamt fast 2 Billionen, setzt seine Leistung sie in die obere Ebene der aktuellen LLMs. Meta berichtet von Benchmark-Ergebnissen von 95,0 auf Math-500, 82,2 auf MMLU Pro, 73,7 auf GPQA Diamond und 85,8 auf mehrsprachigen MMLU.
Diese Bewertungen zeigen, dass Behemoth Claude Sonnet 3.7, Gemini 2.0 Pro und GPT-4,5 in Stamm-und mehrsprachigen Argumentationsaufgaben übertrifft und seine Rolle als Grundlage für die kleineren LLAMA 4-Modelle verstärkt. src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mtcyntoxntgx-1; Base64, Phn2zyb2AWV3QM94psiwidagmtaynca1ndiiih dpzhropsixmdi0iibozwlnahq9iju0miig1sbnm9imh0dha6ly93d3cudzMub3jnlziwmdavc3znij48l3n2zz4=”> Quelle: Meta
Trainingsstrategie und neuartige Architekturen
Lama 4 Marks META Erste Verwendung von MOE-Schichten, die mit dichten Schichten in Produktionsmodellen durchsetzt sind. Es werden nur ein kleiner Teil der Parameter pro Token aktiviert, was die Effizienz verbessert, ohne die Qualität erheblich zu beeinflussen. Jedes Maverick-Token wird an einen von 128 Experten sowie einen gemeinsam genutzten Experten weitergeleitet, wobei alle Experten im Speicher geladen, aber während der Inferenz selektiv aktiviert werden. „Wir nennen dies die IROPE-Architektur, wobei”I”für”Interleaved”Aufmerksamkeitsebenen steht und das langfristige Ziel hervorhebt, die”unendliche”Kontextlänge zu unterstützen.”Das Unternehmen verwendete die FP8-Präzision für das Training, um den Durchsatz zu erhöhen und 390 TFLOPs pro GPU während des Vorbereitenden von Behemoth über 32.000 GPUs zu erzielen. Metap, ein System zur dynamisch skalierenden Initialisierung und Lernraten, wurde verwendet, um die Hyperparameter-Stimmung über unterschiedliche Modellgrößen und-stapel-Konfigurationen zu verallgemeinern. Für den Start hat Meta mit großen Cloud-Anbietern zusammengearbeitet, um die Adoption zu beschleunigen. AWS fügte bereits Lama 4 Scout und Lama 4 Maverick zu Amazon Sagemaker Jumpstart hinzu, wobei die Bedrock-Unterstützung in Kürze erwartet wird. Gleichzeitig hat Microsoft Unterstützung durch llama guard , eine Eingabe-/Output-Klassifise basierend auf einer Risiko-Taxomie von Mlcommons, enthält einbezogen. Der schnelle Wachmann, der auf einer Vielzahl von Angriffstypen ausgebildet wurde, soll Jailbreak-Versuche und schnelle Injektionen erfassen. Cyberseceval hilft Entwicklern dabei, AI-Modelle gegen Cybersicherheitsbedrohungen zu testen. Dieses Tool simuliert Multi-Turn-Gespräche mit mittelschweren kontroversen Akteuren, wodurch die META-Erhöhung der Testabdeckung und die Entdeckung von Schwachstellen effizienter geholfen wird.
Bias bleibt ein zentrales Problem. Bei Tests zu politisch aufgeladenen Themen sind die Ablehnungsraten in Lama 4 auf weniger als 2% gesunken-von 7% in Lama 3,3. Ungleiche Reaktionsablehnungen über Ideologien liegen jetzt unter 1%. Meta sagt, es arbeitet auf Modelle hin, die verschiedene Gesichtspunkte darstellen können, ohne eine Haltung aufzuerlegen. Diese Integrationen bieten ein breites Testbett, um die Leistung in freier Wildbahn zu bewerten, während gleichzeitig die Modelle riesigen Benutzereingabestreams ausgesetzt werden, die zukünftige Verbesserungen beeinflussen könnten. Zu den Themen gehören eine weitere Skalierung des Gigantenmodells und die Einführung von LLAMA 4-V, einem vollständig multimodalen Sichtsprachmodell, das sowohl statische als auch zeitliche visuelle Eingaben behandeln kann. Die Ankündigung unterstreicht das Ziel von Meta, Systeme zu liefern, die nicht nur sprachlich kompetent sind, sondern auch multimodales Argumentieren mit hohem Fidelity in der Lage sind. Die Lama 4-Modelle sind nicht vollständig offen, bieten jedoch ein gewisses Maß an Transparenz und Flexibilität, die zwischen rein geschlossenen Systemen und gemeindenahen Modellen liegt. Ihr Einsatz über Milliarden von Endpunkten-von Cloud-APIs bis hin zu Messaging-Apps-könnte die Entwicklererwartungen in Bezug auf Skalierung, Leistung und verantwortungsbewusstes Gebrauch in den kommenden Monaten formen.