Meta a publié Llama 4 Scout et Llama 4 Maverick, deux modèles de grande langue frontaliers ouverts qui introduisent des changements architecturaux majeurs tout en élargissant la présence de l’entreprise à travers les applications multimodales et les plates-formes cloud.

Les deux modèles sont conçus avec un système de cible SCOUT OPTIMODAL et un système de cible SCOUT OPTIMIS Temps de travail.

La société a également révélé un modèle de professeur de paramètres de 2 000-Llama 4 Behemoth-toujours encore en formation, et un modèle de vision multimodal, Llama 4-V, à suivre plus tard.

Bien que Scout soit conçu pour s’adapter à un seul GPU H100 via la quantification INT4, il offre toujours une longueur de contexte de 10 millions de jetons, un bond de dix fois par rapport aux modèles précédents. Il comprend 17 milliards de paramètres actifs avec 16 experts et 109 milliards de paramètres au total.

Maverick partage le même nombre de paramètres actifs, mais l’échelle de la configuration du MOE à 128 experts et 400 milliards de paramètres au total, permettant des tâches de raisonnement et de compréhension d’image plus sophistiquées. Les deux modèles traitent les images et le texte conjointement par la fusion précoce-une méthode où les deux types de jetons sont intégrés dans le même modèle de squelette pendant la pré-formation.

Dans le cadre de la conception au niveau du système de META, les modèles ont été formés sur jusqu’à 48 images par exemple, avec SCOUT testé après la formation sur autant que huit. Cette mise à la terre visuelle permet des capacités telles que la localisation d’objets et l’alignement amélioré entre le contenu de l’image et les invites de langue. Selon Meta, «Llama 4 Scout est le meilleur de sa catégorie sur la mise à la terre de l’image, capable d’aligner les invites des utilisateurs avec les concepts visuels pertinents et les réponses du modèle d’ancrage aux régions de l’image.»

Performance de référence: Scout, Maverick et Behemoth est positionné par Meta As A Halled-PEPECTENCE 4 MAVERICK L’assistant multimodal et les références internes reflètent cette affirmation. Sur les tâches de raisonnement visuel, il atteint 90,0 sur ChartQA et 94,4 sur DOCVQA, surpassant GPT-4O et Gemini 2.0 Flash. Il enregistre également 73,7 sur Mathvista et 80,5 sur MMLU Pro, indiquant de fortes capacités de raisonnement général.

Dans les tâches de programmation, Maverick marque 43,4 sur LivecodeBench, le plaçant avant GPT-4O et Gemini 2.0 Flash, et juste en dessous de Deepseek v3.1. Sa performance assistant est renforcée par une note ELO de 1417 sur Lmarena. Pour la rentabilité, META estime que les coûts d’inférence entre 0,19 $ et 0,49 $ par million de jetons sous un mélange de sortie de sortie 3: 1

Source: Meta

llama 4 scout , tout en étant plus petite, tient le sien entre les modèles dans sa classe. Il marque 88,8 sur ChartQA, correspondant à Maverick avec 94,4 sur DOCVQA, et atteint 74,3 sur MMLU Pro. Ces résultats mettent en évidence son efficacité dans les références visuelles et de raisonnement, en particulier pour les déploiements légers ou uniques-GPU.

Sa parité de score élevée avec des modèles plus grands dans les tâches d’image signale de fortes optimisations de conception, en particulier pour les cas d’utilisation qui nécessitent une compréhension multimodale riche en contexte mais moins de surcharge d’infrastructure.

Source: Meta

LLAMA 4 Behemoth reste inédite mais a servi de modèle enseignant pour la colistrillation de Maverick and Scout. Avec 288 milliards de paramètres actifs et près de 2 billions au total, ses performances le placent dans l’échelon supérieur des LLM actuels. Meta rapporte des scores de référence de 95,0 sur Math-500, 82,2 sur MMLU Pro, 73,7 sur GPQA Diamond et 85,8 sur MMLU multilingue.

Ces scores indiquent que le géant dépasse Claude Sonnet 3.7, Gemini 2.0 Pro et GPT-4.5 dans les tâches de raisonnement tige et multilingues, renforçant son rôle de base pour les petits modèles LLAMA 4.

Source: Meta

stratégie de formation et architectures nouvelles

lama 4 marque la première utilisation par Meta des couches Moe entrecoupées de couches denses dans les modèles de production. Seule une petite fraction des paramètres est activée par jeton, améliorant l’efficacité sans affecter de manière significative la qualité. Chaque jeton Maverick est acheminé vers l’un des 128 experts plus un expert partagé, tous les experts chargés en mémoire mais activés sélectivement pendant l’inférence.

Meta a également implémenté un nouveau schéma de codage positionnel appelé IROPE-des embarrages positionnels rotatifs intermédiaires-qui laisse tomber la nécessité de jets à position fixe et d’amélioration de la généralisation du contexte long. «Nous appelons cela l’architecture Irope, où« je »signifie les couches d’attention« entrelacées », mettant en évidence l’objectif à long terme de soutenir la longueur du contexte« infinie ».”

scout et Maverick étaient à la fois pré et post-formés avec des fenêtres de contexte 256K pour améliorer l’adaptation à des séquences plus longues. L’entreprise a utilisé la précision FP8 pour la formation pour augmenter le débit, réalisant 390 TFLOP par GPU lors de la pré-formation de Behemoth sur 32k GPU. MetAP, un système pour la mise à l’échelle des taux d’initialisation et d’apprentissage à l’échelle dynamique, a été utilisé pour généraliser le réglage de l’hyperparamètre à travers des tailles de modèle et des configurations par lots variables.

Disponibilité des nuages ​​et modifications de licence

META met Llama 4 Scout Llama 4 Maverick disponible pour LLAMA.com et Hugging Face. Pour le lancement, Meta s’est associé à des fournisseurs de cloud majeurs pour accélérer l’adoption. AWS a déjà ajouté Llama 4 Scout et Llama 4 Maverick à Amazon Sagemaker Jumpstart , avec une prise en charge du substratum rythme attendu bientôt. Simultanément, Microsoft a déployé le support via azure ai et azure databricks . Les intégrations fournissent aux développeurs un accès direct aux API préconfigurées pour le réglage fin et l’inférence, réduisant le délai de déploiement dans les environnements de production.

Les licences ont également changé. Contrairement aux modèles LLAMA précédents, qui étaient principalement destinés à la recherche non commerciale, les nouveaux modèles sont publiés sous une licence commerciale personnalisée. Meta le décrit comme flexible, bien qu’il s’arrête à moins de l’état complet de l’ouverture.

Sécurité au niveau du système et réduction du biais

Parallèlement à ses améliorations de modèle, Meta a souligné une suite de garanties. Guard Llama , un classificateur d’entrée/sortie basé sur une taxonomie de risque de MLComons, est inclus pour détecter le contenu hargneux. Inside Guard, formé sur un large éventail de types d’attaque, est conçu pour capter des tentatives de jailbreak et des injections rapides. CyberseCeval aide les développeurs à tester les modèles d’IA contre les menaces de cybersécurité.

Meta a également introduit un nouveau cadre d’équipe rouge appelée chèvre-un test d’agent offensif générateur. Cet outil simule les conversations multiples avec des acteurs adversaires moyennés, aidant la méta à augmenter la couverture des tests et à découvrir plus efficacement les vulnérabilités.

Le biais reste une préoccupation fondamentale. Dans les tests sur des sujets politiquement chargés, les taux de refus dans LLAMA 4 sont tombés à moins de 2%, par rapport à 7% dans LLAMA 3.3. Les refus de réponse inégale entre les idéologies diminuent désormais en dessous de 1%. Meta dit qu’il travaille vers des modèles qui peuvent représenter divers points de vue sans imposer une position.

L’intégration de l’écosystème et la future feuille de route

llama 4 Scout et Maverick sont déjà en direct dans les fonctionnalités Meta AI sur WhatsApp, Messenger, Instagram Direct et Interface Web. Ces intégrations offrent un large lit d’essai pour évaluer les performances dans la nature, tout en exposant simultanément les modèles à de vastes flux d’entrée des utilisateurs qui pourraient éclairer les améliorations futures.

À l’avance, Meta est définie pour présenter plus de détails sur llamacon sur AVRIM 29 . Les sujets comprendront une mise à l’échelle supplémentaire du modèle du géant et l’introduction de LLAMA 4-V, un modèle entièrement multimodal en langue visuelle capable de gérer les entrées visuelles statiques et temporelles. L’annonce souligne que le objectif de Meta de fournir des systèmes qui ne sont pas seulement compétents linguistiquement, mais également capables de raisonnement multimodal à haute fidélité.

La position de la méta dans l’écosystème ouvert reste nuancé. Les modèles LLAMA 4 ne sont pas entièrement open-source, mais ils offrent un degré de transparence et de flexibilité qui se situe entre les systèmes purement fermés et les modèles communautaires. Leur déploiement sur des milliards de points de terminaison-des API cloud aux applications de messagerie-pourrait façonner les attentes des développeurs autour de l’échelle, des performances et de l’utilisation responsable dans les mois à venir.

Categories: IT Info