メタは、消費者アプリとクラウドプラットフォーム全体で会社の存在感を拡大しながら、主要な建築の変化を導入する2つのオープンウェイトフロンティアの大きな言語モデルであるLlama 4 ScoutとLlama 4 Maverickをリリースしました。ワークロード。 src=”data:image/svg+xml; nitro-empty-id=mtcwmzoxntk0-1; base64、phn2zyb2awv3qm94psiwidagmtaynca4nz qiihdpzhropsixmdi0iibozwlnahq9ijg3ncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Scoutは、INT4量子化を介して単一のH100 GPUに収まるように構築されていますが、クラス最高のトークンコンテキストの長さは、以前のモデルに10倍の飛躍を提供します。 16人の専門家と合計1,000億パラメーターを備えた170億個のアクティブパラメーターを備えています。

Maverickは同じアクティブなパラメーターカウントを共有しますが、MOEセットアップを128人の専門家と4,000億の合計パラメーターに拡大し、より洗練された推論とイメージ理解タスクを可能にします。どちらのモデルでも、初期の融合を通じて画像とテキストを共同で処理します。これは、両方のトークンタイプが事前トレーニング中に同じバックボーンモデルに埋め込まれている方法です。

メタのシステムレベルの設計の一部として、モデルは例ごとに最大48枚の画像でトレーニングされ、スカウトは8つの場合にポストトレーニングをテストしました。この視覚的接地により、オブジェクトのローカリゼーションや画像コンテンツと言語プロンプトの間の調整の改善などの機能が可能になります。 Metaによると、「Llama 4 Scoutは画像接地でクラス最高であり、画像内の領域に対する関連する視覚概念とアンカーモデルの応答をユーザープロンプトと整列させることができます。」マルチモーダルアシスタント、および内部ベンチマークは、その主張を反映しています。視覚的な推論タスクでは、Chartqaで90.0、DOCVQAで94.4を達成し、GPT-4OとGemini 2.0フラッシュの両方を上回ります。また、Mathvistaで73.7、MMLU Proで80.5を記録し、強力な一般的な推論能力を示しています。

プログラミングタスクでは、MaverickはLiveCodebenchで43.4を獲得し、GPT-4oとGemini 2.0 Flashよりも先に配置し、Deepseek v3.1のすぐ下に配置します。そのアシスタントパフォーマンスは、Lmarenaでの1417のELO評価によって強化されています。費用効率のために、メタは3:1の入出力ブレンドで100トークンあたり0.19〜0.49ドルの推論コストを推定します。

出典:Meta

llama 4 Scout は、スケールが小さいため、クラスのモデル間で独自のモデルを保持します。 Chartqaで88.8を獲得し、MAVERICKをDOCVQAで94.4と一致させ、MMLU Proで74.3に達します。これらの結果は、特に軽量またはシングルGPUの展開での視覚的および推論ベンチマークにおける有効性を強調しています。

画像タスク内のより大きなモデルを備えたその高スコアパリティは、特にコンテキストが豊富なマルチモーダルの理解を必要とするが、インフラストラクチャの架空を必要とするユースケースで強力な設計最適化を示します。 src=”data:image/svg+xml; nitro-empty-id=mtcxndoxodq3-1; base64、phn2zyb23qm94psiwidagmtaynca3mjuiih dpzhropsixmdi0iibozwlnahq9ijcynsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> source:source:source:source: Meta

llama 4 Behemoth は未発表のままですが、マーベリックとスカウトのcodistolationの教師モデルとして機能しました。 2,880億のアクティブなパラメーターと合計2兆近くのパラメーターがあるため、そのパフォーマンスは現在のLLMの上部階層に配置されています。 Metaは、Math-500で95.0、MMLU Proで82.2、GPQAダイヤモンドで73.7、多言語MMLUで85.8のベンチマークスコアを報告しています。

これらのスコアは、ベヒーモスがSTEMおよび多言語の推論タスクでClaude Sonnet 3.7、Gemini 2.0 Pro、およびGPT-4.5を上回り、より小さなラマ4モデルの基礎としての役割を強化することを示しています。 src=”data:image/svg+xml; nitro-empty-id=mtcyntoxntgx-1; base64、phn2zyb2awv3qm94psiwidagmtaynca1ndiiih dpzhropsixmdi0iibozwlnahq9iju0miigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>出典:出典:メタ

トレーニング戦略と新しいアーキテクチャ

llama 4マークメタの生産モデルで密な層が散在するMOE層の最初の使用。トークンごとにパラメーターのごく一部のみがアクティブになり、品質に大きな影響を与えることなく効率が向上します。各マーベリックトークンは、128人の専門家のうちの1人と共有専門家にルーティングされ、すべての専門家が記憶に搭載されていますが、推論中に選択的にアクティブ化されます。 「これをIROPEアーキテクチャと呼びます。「I」は「インターリーブ」の注意層を表し、「無限」コンテキスト長をサポートするという長期的な目標を強調しています。」同社は、トレーニングにFP8精度を使用してスループットを増加させ、32K GPUにわたる巨人の前登録中にGPUあたり390 TFLOPSを達成しました。 Metapは、初期化と学習率を動的にスケーリングするシステムを使用して、さまざまなモデルサイズとバッチ構成全体にハイパーパラメーターチューニングを一般化するために使用されました。

クラウドの可用性とライセンス変更発売のために、Metaは主要なクラウドプロバイダーと提携して、採用を促進しました。 AWSはすでにLlama 4 Scoutとllama 4 Maverickを amazon sagemaker jumpstart に追加しました。同時に、Microsoftは llama guild 、mlcommonsからのリスク分類に基づく入出力/出力分類子。幅広い攻撃タイプで訓練された迅速なガードは、脱獄の試みと迅速な注射をキャッチするように設計されています。 Cyber​​secevalは、開発者がサイバーセキュリティの脅威に対してAIモデルをテストするのに役立ちます。このツールは、中程度のスキルのある敵対的な主体とのマルチターン会話をシミュレートし、メタがテストカバレッジを増やし、より効率的に脆弱性を明らかにするのに役立ちます。政治的に起訴されたトピックに関するテストでは、Llama 4の拒否率は2%未満に低下しました。Llama3.3の7%からダウンしています。イデオロギー全体の不平等な対応拒否は現在1%を下回っています。メタは、スタンスを課すことなく多様な視点を表すことができるモデルに向けて取り組んでいると言います。

生態系統合と将来のロードマップ

llama 4スカウトとマーベリックはすでにメタAI機能に住んでいます。これらの統合は、野生のパフォーマンスを評価するための幅広いテストベッドを提供し、同時にモデルを将来の改善を知らせる膨大なユーザー入力ストリームにさらします。トピックには、ベヒーモスモデルのさらなるスケーリングと、静的視覚入力と時間的視覚入力の両方を処理できる完全なマルチモーダルビジョン言語モデルであるLlama 4-Vの導入が含まれます。この発表は、言語的に有能であるだけでなく、高忠実度のマルチモーダル推論が可能なシステムを提供することを目指しているメタの目的を強調しています。 Llama 4モデルは完全にオープンソースではありませんが、純粋に閉じたシステムとコミュニティ駆動型モデルの間にあるある程度の透明性と柔軟性を提供します。クラウドAPIからメッセージングアプリまで、数十億のエンドポイントにまたがるそれらの展開は、今後数か月でスケール、パフォーマンス、責任ある使用に関する開発者の期待を形作ることができました。

Categories: IT Info