Meta telah merilis Llama 4 Scout dan Llama 4 Maverick, dua model bahasa besar frontier terbuka yang memperkenalkan perubahan arsitektur besar sambil memperluas kehadiran perusahaan di seluruh aplikasi konsumen dan platform cloud. beban kerja.
Perusahaan juga telah mengungkapkan model guru parameter 2 triliun-llama 4 raksasa-masih masih ada dalam pelatihan, dan model penglihatan multimodal, llama 4-V, untuk mengikuti nanti.
Sementara Scout dibangun agar sesuai dengan satu GPU H100 melalui kuantisasi Int4, masih menawarkan panjang konteks token 10 juta terbaik di kelasnya, lompatan sepuluh kali lipat dari model sebelumnya. Ini fitur 17 miliar parameter aktif dengan 16 ahli dan 109 miliar total parameter.
Maverick berbagi jumlah parameter aktif yang sama tetapi skala pengaturan MOE menjadi 128 ahli dan 400 miliar total parameter, memungkinkan penalaran yang lebih canggih dan tugas pemahaman gambar. Kedua model memproses gambar dan teks bersama-sama melalui fusi awal-metode di mana kedua jenis token tertanam dalam model tulang punggung yang sama selama pretraining.
Sebagai bagian dari desain tingkat sistem meta, model dilatih pada hingga 48 gambar per contoh, dengan pengintai diuji pasca pelatihan pada sebanyak delapan. Landasan visual ini memungkinkan kemampuan seperti lokalisasi objek dan peningkatan penyelarasan antara konten gambar dan petunjuk bahasa. According to Meta, “Llama 4 Scout is best-in-class on image grounding, able to align user prompts with relevant visual concepts and anchor model responses to regions in the image.”
Benchmark Performance: Scout, Maverick, and Behemoth
Llama 4 Maverick is positioned by Meta as a high-performance multimodal Asisten, dan tolok ukur internal mencerminkan klaim itu. Pada tugas penalaran visual, ia mencapai 90.0 pada ChartqA dan 94.4 di DOCVQA, mengungguli Flash GPT-4O dan Gemini 2.0. Ini juga mencatat 73.7 pada Mathvista dan 80.5 di MMLU Pro, menunjukkan kemampuan penalaran umum yang kuat.
Dalam tugas pemrograman, skor maverick 43,4 di LiveCodebench, menempatkannya di depan GPT-4O dan Gemini 2.0 flash, dan tepat di bawah Deepseek v3.1. Kinerja asistennya diperkuat oleh peringkat ELO 1417 di Lmarena. Untuk efisiensi biaya, Meta memperkirakan biaya inferensi antara $ 0,19– $ 0,49 per juta token di bawah campuran input-output 3: 1.
Sumber: Meta
llama 4 Scout , sementara skala yang lebih kecil, memegang sendiri di antara model di kelasnya. Skor 88,8 di ChartQA, mencocokkan maverick dengan 94,4 di docvqa, dan mencapai 74,3 di MMLU Pro. Hasil ini menyoroti efektivitasnya dalam tolok ukur visual dan penalaran, terutama untuk penyebaran ringan atau gpu tunggal.
Paritas skor tinggi dengan model yang lebih besar dalam tugas-tugas gambar menandakan optimasi desain yang kuat, terutama untuk kasus penggunaan yang membutuhkan pemahaman multimodal yang kaya konteks tetapi lebih sedikit infrastruktur overhead.
Sumber: Meta
llama 4 Behemoth tetap belum dirilis tetapi berfungsi sebagai model guru untuk kodistilasi Maverick dan Scout. Dengan 288 miliar parameter aktif dan total hampir 2 triliun, kinerjanya menempatkannya di eselon atas LLM saat ini. Meta melaporkan skor benchmark 95.0 pada Math-500, 82.2 pada MMLU Pro, 73.7 pada GPQA Diamond, dan 85.8 pada MMLU multibahasa.
Skor ini menunjukkan bahwa raksasa melampaui Claude Sonnet 3.7, Gemini 2.0 Pro, dan GPT-4.5 dalam tugas penalaran batang dan multibahasa, memperkuat perannya sebagai fondasi untuk model Llama 4 yang lebih kecil.
Strategi pelatihan dan arsitektur baru
llama 4 menandai penggunaan meta dari lapisan MOE pertama diselingi dengan lapisan padat dalam model produksi. Hanya sebagian kecil dari parameter yang diaktifkan per token, meningkatkan efisiensi tanpa mempengaruhi kualitas secara signifikan. Setiap token maverick dialihkan ke salah satu dari 128 pakar ditambah ahli bersama, dengan semua ahli dimuat dalam memori tetapi diaktifkan secara selektif selama inferensi.
Meta juga menerapkan skema pengkodean posisi yang baru disebut irope-embedding posisi putar yang terputus-yang menjatuhkan kebutuhan untuk memperbaiki posisi panjang dan perbaikan panjang. “Kami menyebutnya arsitektur Irope, di mana‘ I ’adalah singkatan dari‘ Interleaved ’Layers, menyoroti tujuan jangka panjang untuk mendukung panjang konteks’tak terbatas’.”
Scout dan Maverick keduanya sebelum dan sesudah dilatih dengan jendela konteks 256k untuk meningkatkan adaptasi ke urutan yang lebih lama. Perusahaan menggunakan presisi FP8 untuk pelatihan untuk meningkatkan throughput, mencapai 390 TFLOPS per GPU selama pretraining Behemoth di 32K GPU. Metap, sistem untuk inisialisasi penskalaan dan tingkat pembelajaran secara dinamis, digunakan untuk menggeneralisasi tuning hiperparameter di berbagai ukuran model dan konfigurasi batch.
Ketersediaan cloud dan perubahan lisensi
Meta membuat llama 4 Scout Llama 4 Maverick yang tersedia untuk unduhan dan Meta. Untuk peluncuran, Meta bermitra dengan penyedia cloud besar untuk mempercepat adopsi. AWS Sudah Menambahkan Llama 4 Scout dan Llama 4 Maverick ke Amazon Sagemaker Jumpstart , dengan dukungan landasan diharapkan segera. Secara bersamaan, Microsoft meluncurkan dukungan melalui azure auure auure auure auure> Memberikan pengembang dengan akses langsung ke API yang telah dikonfigurasi sebelumnya untuk fine-tuning dan inferensi, mengurangi waktu-ke-ditempatkan di lingkungan produksi.
Perizinan juga telah bergeser. Tidak seperti model LLAMA sebelumnya, yang terutama dimaksudkan untuk penelitian non-komersial, model baru dirilis di bawah lisensi komersial khusus. Meta menggambarkannya sebagai fleksibel, meskipun berhenti dari status sumber terbuka penuh.
Keselamatan tingkat sistem dan pengurangan bias
Bersamaan dengan peningkatan modelnya, Meta menekankan rangkaian perlindungan. llama guard , input/output classifier yang disertakan dari classifier risiko. Penjaga cepat, dilatih pada berbagai jenis serangan, dirancang untuk menangkap upaya jailbreak dan suntikan yang cepat. Cyberseceval membantu pengembang menguji model AI terhadap ancaman keamanan siber.
Meta juga memperkenalkan kerangka kerja tim merah baru yang disebut kambing-pengujian agen ofensif generatif. Alat ini mensimulasikan percakapan multi-giliran dengan aktor permusuhan yang terampil menengah, membantu meta meningkatkan cakupan pengujian dan mengungkap kerentanan lebih efisien.
Bias tetap menjadi perhatian inti. Dalam tes tentang topik yang diisi secara politis, tingkat penolakan di Llama 4 telah turun menjadi di bawah 2%-down dari 7% di Llama 3.3. Penolakan respons yang tidak merata di seluruh ideologi sekarang jatuh di bawah 1%. Meta mengatakan sedang bekerja menuju model yang dapat mewakili sudut pandang beragam tanpa memaksakan sikap.
integrasi ekosistem dan peta jalan di masa depan
Llama 4 Scout dan Maverick sudah tinggal dalam fitur Meta AI di seluruh WhatsApp, Messenger, Instagram Direct, dan antarmuka web. Integrasi ini menawarkan testbed yang luas untuk mengevaluasi kinerja di alam liar, sementara secara bersamaan mengekspos model ke aliran input pengguna yang luas yang dapat menginformasikan perbaikan di masa depan.
Melihat ke depan, meta akan menampilkan lebih banyak detail di