Pinakawalan ng Meta ang Llama 4 Scout at Llama 4 Maverick, dalawang bukas na timbang na mga malalaking modelo ng wika na nagpapakilala sa mga pangunahing pagbabago sa arkitektura habang pinalawak ang pagkakaroon ng kumpanya sa buong mga consumer na platform at isang cloud platform. Mga Workload. src=”data: imahe/svg+xml; nitro-empty-id=mtcwmzoxntk0-1; base64, phn2zyb2awv3qm94psiwidagmtaynca4nz Qiihdpzhropsixmdi0iibozwlnahq9ijg3ncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Habang ang Scout ay binuo upang magkasya sa isang solong H100 GPU sa pamamagitan ng int4 na dami, nag-aalok pa rin ito ng isang pinakamahusay na-klase na 10 milyong haba ng konteksto ng token, isang sampung beses na paglukso sa mga nakaraang mga modelo. Nagtatampok ito ng 17 bilyong aktibong mga parameter na may 16 na eksperto at 109 bilyong kabuuang mga parameter. Ang parehong mga modelo ay nagpoproseso ng mga imahe at teksto nang magkasama sa pamamagitan ng maagang pagsasanib-isang pamamaraan kung saan ang parehong mga uri ng token ay naka-embed sa parehong modelo ng gulugod sa panahon ng pagpapanggap. Ang visual grounding na ito ay nagbibigay-daan sa mga kakayahan tulad ng object localization at pinahusay na pag-align sa pagitan ng nilalaman ng imahe at mga senyas ng wika. Ayon kay Meta, ang””Ang Llama 4 Scout ay pinakamahusay-sa-klase sa grounding ng imahe, na mai-align Ang katulong na multimodal, at mga panloob na benchmark ay sumasalamin sa paghahabol na iyon. Sa mga gawain sa visual na pangangatuwiran, nakamit nito ang 90.0 sa ChartQA at 94.4 sa DOCVQA, na nagpapalabas ng parehong GPT-4O at Gemini 2.0 flash. Nag-log din ito ng 73.7 sa Mathvista at 80.5 sa MMLU Pro, na nagpapahiwatig ng malakas na pangkalahatang kakayahan sa pangangatuwiran. _ Ang katulong na pagganap nito ay pinalakas ng isang rating ng ELO na 1417 sa Lmarena. Para sa kahusayan sa gastos, tinantya ng Meta ang mga gastos sa pag-iintindi sa pagitan ng $ 0.19-$ 0.49 bawat milyong mga token sa ilalim ng isang 3: 1 input-output timpla. Nagmarka ito ng 88.8 sa ChartQA, na tumutugma sa Maverick na may 94.4 sa DOCVQA, at umabot sa 74.3 sa MMLU Pro. Ang mga resulta na ito ay nagtatampok ng pagiging epektibo nito sa mga benchmark ng visual at pangangatuwiran, lalo na para sa magaan o solong-GPU na paglawak.

src=”data: imahe/svg+xml; nitro-empty-id=mtcxndoxodq3-1; base64, phn2zyb2awv3qm94psiwidagmtaynca3mjuiiH dpzhropsixmdi0iibozwlnahq9ijcynsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”source: Ang Meta

llama 4 Behemoth ay nananatiling hindi nabigyan ngunit nagsilbi bilang modelo ng guro para sa codistillation ng maverick at scout. Sa pamamagitan ng 288 bilyong aktibong mga parameter at halos 2 trilyon na kabuuan, ang pagganap nito ay inilalagay ito sa itaas na echelon ng kasalukuyang mga LLM. Iniulat ng Meta ang mga marka ng benchmark ng 95.0 sa MATH-500, 82.2 sa MMLU Pro, 73.7 sa GPQA Diamond, at 85.8 sa multilingual MMLU.

src=”data: imahe/svg+xml; nitro-empty-id=mtcyntoxntgx-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1ndiiiH dpzhopsixmdi0iibozwlnahq9iju0miigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”source: Meta

diskarte sa pagsasanay at mga arkitektura ng nobela Tanging isang maliit na bahagi ng mga parameter ang isinaaktibo sa bawat token, pagpapabuti ng kahusayan nang walang makabuluhang nakakaapekto sa kalidad. Ang bawat token ng maverick ay naka-ruta sa isa sa 128 eksperto kasama ang isang ibinahaging dalubhasa, kasama ang lahat ng mga eksperto na na-load sa memorya ngunit napili na isinaaktibo sa panahon ng pag-iintindi.”Tinatawag namin ito na Irrope Architecture, kung saan ang’I’ay naninindigan para sa mga’interleaved’na mga layer ng pansin, na itinampok ang pangmatagalang layunin na suportahan ang’walang hanggan’na haba ng konteksto.”Ginamit ng kumpanya ang katumpakan ng FP8 para sa pagsasanay upang madagdagan ang throughput, nakamit ang 390 TFLOPS bawat GPU sa panahon ng pagpapanggap ng behemoth sa buong 32K GPU. Ang METAP, isang sistema para sa pabago-bagong pag-scale ng pagsisimula at mga rate ng pag-aaral, ay ginamit upang gawing pangkalahatan ang hyperparameter na pag-tune sa iba’t ibang mga laki ng modelo at mga pagsasaayos ng batch. Para sa paglulunsad, nakipagtulungan si Meta sa mga pangunahing tagapagbigay ng ulap upang mapabilis ang pag-aampon. Nagdagdag na ang AWS ng llama 4 scout at llama 4 maverick sa Amazon sagemaker jumpstart , na may suporta sa bedrock na inaasahan sa lalong madaling panahon. Kasabay nito, inilunsad ng Microsoft ang suporta sa pamamagitan ng azure ai foundry at azure databricks Ang mga nag-develop na may direktang pag-access sa na-configure na mga API para sa fine-tuning at inference, na binabawasan ang oras-sa-paglawak sa mga kapaligiran ng produksiyon.

Ang paglilisensya ay lumipat din. Hindi tulad ng mga nakaraang modelo ng LLAMA, na pangunahing inilaan para sa hindi pang-komersyal na pananaliksik, ang mga bagong modelo ay pinakawalan sa ilalim ng isang pasadyang lisensya sa komersyal. Inilarawan ito ng Meta bilang nababaluktot, kahit na huminto ito sa buong buong katayuan ng open-source. llama guard , isang input/output classifier batay sa isang peligro na taxonomy mula sa mlcommons, ay kasama ang nakakapinsalang nilalaman. Ang Prompt Guard, na sinanay sa isang malawak na hanay ng mga uri ng pag-atake, ay idinisenyo upang mahuli ang mga pagtatangka sa jailbreak at mga prompt na iniksyon. Tinutulungan ng Cyberseceval ang mga developer na subukan ang mga modelo ng AI laban sa mga banta sa cybersecurity. Ang tool na ito ay ginagaya ang mga pag-uusap ng multi-turn na may mga medium-saded adversarial actors, na tumutulong sa meta dagdagan ang pagsaklaw sa pagsubok at alisan ng takip ang mga kahinaan nang mas mahusay. Sa mga pagsubok sa mga paksa na sisingilin sa politika, ang mga rate ng pagtanggi sa Llama 4 ay bumaba sa ilalim ng 2%-na mula sa 7% sa LLAMA 3.3. Ang hindi pantay na pagtanggi sa pagtanggi sa mga ideolohiya ay nahuhulog ngayon sa ibaba ng 1%. Sinabi ni Meta na nagtatrabaho ito sa mga modelo na maaaring kumatawan sa magkakaibang mga pananaw nang hindi nagpapataw ng isang tindig. Ang mga pagsasama na ito ay nag-aalok ng isang malawak na testbed upang suriin ang pagganap sa ligaw, habang sabay na inilalantad ang mga modelo upang malawak ang mga stream ng input ng gumagamit na maaaring ipaalam sa mga pagpapabuti sa hinaharap. Kasama sa mga paksa ang karagdagang pag-scale ng modelo ng Behemoth at ang pagpapakilala ng LLAMA 4-V, isang ganap na modelo ng wikang pang-multimodal na may kakayahang pangasiwaan ang parehong static at temporal visual input. Ang anunsyo ay binibigyang diin ang layunin ng Meta na maghatid ng mga system na hindi lamang linggwistiko na may kakayahan, ngunit may kakayahang mataas na katapatan na multimodal na pangangatuwiran. Ang mga modelo ng LLAMA 4 ay hindi ganap na bukas-mapagkukunan, ngunit nag-aalok sila ng isang antas ng transparency at kakayahang umangkop na nakaupo sa pagitan ng mga purong saradong mga sistema at mga modelo na hinihimok ng komunidad. Ang kanilang pag-deploy sa buong bilyun-bilyong mga endpoints-mula sa mga ulap na API hanggang sa mga apps sa pagmemensahe-ay maaaring humuhubog sa mga inaasahan ng developer sa paligid ng scale, pagganap, at responsableng paggamit sa mga buwan na maaga.

Categories: IT Info