Meta telah mengeluarkan Llama 4 Scout dan Llama 4 Maverick, dua model bahasa yang besar di sempadan terbuka yang memperkenalkan perubahan seni bina utama sambil memperluaskan kehadiran syarikat di seluruh aplikasi pengguna dan platform awan. beban kerja perusahaan.

Syarikat juga telah mendedahkan model guru parameter 2-trilion-llama 4 raksasa-pada masa ini masih dalam latihan, dan model penglihatan multimodal, llama 4-v, untuk mengikuti kemudian.

Walaupun Pengakap dibina untuk dimuatkan pada GPU H100 tunggal melalui kuantisasi INT4, ia masih menawarkan panjang konteks 10 juta token yang terbaik dalam kelas, sepuluh kali ganda melonjak ke atas model terdahulu. Ia mempunyai 17 bilion parameter aktif dengan 16 pakar dan 109 bilion parameter total.

Maverick berkongsi kiraan parameter aktif yang sama tetapi menstabilkan persediaan MOE kepada 128 pakar dan 400 bilion parameter total, membolehkan tugas pemahaman dan pemahaman imej yang lebih canggih. Kedua-dua model memproses imej dan teks bersama-sama melalui gabungan awal-kaedah di mana kedua-dua jenis token tertanam dalam model tulang belakang yang sama semasa pretraining.

Grounding visual ini membolehkan keupayaan seperti penyetempatan objek dan penjajaran yang lebih baik antara kandungan imej dan arahan bahasa. Menurut Meta,”Llama 4 Scout adalah yang terbaik dalam kelas pada asas imej, dapat menyelaraskan pengguna dengan konsep visual yang relevan dan tindak balas model utama ke kawasan dalam imej.”

Pembantu multimodal, dan tanda aras dalaman mencerminkan tuntutan itu. Mengenai tugas penalaran visual, ia mencapai 90.0 pada Chartqa dan 94.4 pada DOCVQA, mengatasi kedua-dua Flash GPT-4O dan Gemini 2.0. Ia juga log 73.7 pada Mathvista dan 80.5 pada MMLU Pro, menunjukkan keupayaan penalaran umum yang kuat.

Dalam tugas pengaturcaraan, skor Maverick 43.4 pada LiveCodeBench, meletakkannya di hadapan Flash GPT-4O dan Gemini 2.0, dan hanya di bawah Deepseek v3.1. Prestasi penolongnya diperkuat oleh penarafan ELO sebanyak 1417 di Lmarena. Untuk kecekapan kos, meta menganggarkan kos kesimpulan antara $ 0.19-$ 0.49 per juta token di bawah campuran input-output 3: 1. Ia menjaringkan 88.8 pada Chartqa, yang sepadan dengan Maverick dengan 94.4 pada DocVQA, dan mencapai 74.3 pada MMLU Pro. Keputusan ini menyerlahkan keberkesanannya dalam penanda aras visual dan penalaran, terutamanya untuk penyebaran ringan atau tunggal-GPU.

pariti skor tinggi dengan model yang lebih besar dalam tugas imej menandakan pengoptimuman reka bentuk yang kuat, terutamanya untuk kes penggunaan yang memerlukan pemahaman multimodal yang kaya konteks tetapi kurang infrastruktur overhead. Src=”Data: Image/Svg+Xml; Nitro-empty-id=mtcxndoxodq3-1; base64, phn2zyb2awv3qm94psiwidagmtaynca3mjuiih dpzhropsixmdi0iibozwlnahq9ijcynsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> sumber: Meta

llama 4 Behemoth masih belum dirilis tetapi berkhidmat sebagai model guru untuk codistillation maverick dan pengakap. Dengan 288 bilion parameter aktif dan hampir 2 trilion, prestasinya meletakkannya di atas eselon atas LLM semasa. Meta melaporkan skor penanda aras 95.0 pada Math-500, 82.2 pada MMLU Pro, 73.7 pada GPQA Diamond, dan 85.8 pada MMLU berbilang bahasa. Skor ini menunjukkan bahawa raksasa melepasi Claude Sonnet 3.7, Gemini 2.0 Pro, dan GPT-4.5 dalam tugas penalaran batang dan berbilang bahasa, menguatkan peranannya sebagai asas bagi model Llama 4 yang lebih kecil. Src=”Data: Image/Svg+Xml; Nitro-emphy-id=mtcyntoxntgx-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1ndiiih dpzhropsixmdi0iibozwlnahq9iju0miigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> sumber: META

Strategi Latihan dan Senibina Novel

llama 4 Marks penggunaan pertama Meta MOE yang diselingi dengan lapisan padat dalam model pengeluaran. Hanya sebahagian kecil daripada parameter yang diaktifkan setiap token, meningkatkan kecekapan tanpa menjejaskan kualiti. Setiap token maverick diarahkan ke salah satu daripada 128 pakar ditambah pakar bersama, dengan semua pakar yang dimuatkan dalam ingatan tetapi secara selektif diaktifkan semasa kesimpulan.”Kami memanggil ini seni bina Irope, di mana’I’bermaksud lapisan perhatian’interleaved’, menonjolkan matlamat jangka panjang untuk menyokong panjang konteks’tak terhingga’. Syarikat itu menggunakan ketepatan FP8 untuk latihan untuk meningkatkan throughput, mencapai 390 tflops per GPU semasa pretraining Behemoth merentasi 32K GPU. Metap, sistem untuk permulaan dan kadar pembelajaran secara dinamik, digunakan untuk merumuskan penalaan hiperparameter di pelbagai saiz model dan konfigurasi batch.

Untuk pelancaran itu, Meta bekerjasama dengan penyedia awan utama untuk mempercepatkan penggunaan. AWS telah menambah llama 4 Scout dan llama 4 Maverick untuk Amazon Sagemaker Jumpstart , dengan sokongan bedrock dijangka tidak lama lagi. Pada masa yang sama, Microsoft melancarkan sokongan melalui llama guard Pengawal yang cepat, yang dilatih dalam pelbagai jenis serangan, direka untuk menangkap percubaan jailbreak dan suntikan segera. CyberseCeval membantu pemaju menguji model AI terhadap ancaman keselamatan siber.

Meta juga memperkenalkan rangka kerja berkumpul merah baru yang dipanggil ujian ejen serangan kambing-generatif. Alat ini mensimulasikan perbualan berbilang giliran dengan pelakon-pelakon yang berkemahiran sederhana, membantu meningkatkan perlindungan ujian meta dan membongkar kelemahan dengan lebih cekap.

Bias tetap menjadi kebimbangan utama. Dalam ujian mengenai topik politik yang dikenakan, kadar penolakan di Llama 4 telah menurun ke bawah 2% daripada 7% di Llama 3.3. Penolakan tindak balas yang tidak sama rata di seluruh ideologi kini jatuh di bawah 1%. Meta mengatakan ia sedang berusaha ke arah model yang boleh mewakili pandangan yang pelbagai tanpa mengenakan pendirian. Integrasi ini menawarkan ujian yang luas untuk menilai prestasi di alam liar, sementara pada masa yang sama mendedahkan model kepada aliran input pengguna yang luas yang dapat memaklumkan penambahbaikan masa depan. Topik-topik akan merangkumi penskalaan model raksasa dan pengenalan Llama 4-V, model bahasa penglihatan multimodal yang mampu mengendalikan kedua-dua input visual statik dan temporal. Pengumuman itu menggariskan matlamat Meta untuk menyampaikan sistem yang bukan hanya kompeten linguistik, tetapi juga mampu menafsirkan penalaran multimodal tinggi.

kedudukan meta dalam ekosistem terbuka berat tetap bernuansa. Model Llama 4 tidak sepenuhnya sumber terbuka, tetapi mereka menawarkan tahap ketelusan dan fleksibiliti yang terletak di antara sistem yang ditutup semata-mata dan model yang didorong oleh komuniti. Pelaksanaan mereka merentasi berbilion-bilion titik akhir-dari API awan ke aplikasi pemesejan-boleh membentuk jangkaan pemaju di sekitar skala, prestasi, dan penggunaan yang bertanggungjawab pada bulan-bulan yang akan datang.

Categories: IT Info