META wydało LLAMA 4 Scout i Llama 4 Maverick, dwa duże modele dużego języka na otwartym froncie, które wprowadzają poważne zmiany architektoniczne, jednocześnie rozszerzając obecność firmy w aplikacjach konsumpcyjnych i platformach chmurowych.

Oba modele są zaprojektowane z natywną strukturą multimodalną i rzadką mieszanką mieszanki (MOE), z optymalizacją Scout, a MAVELE MAVER KOLAMIOWAJ WIĘCEJ STRUKTUJĄCY Obciążenia pracą.

Firma ujawniła również 2-trylion parametrów model nauczycieli-lama 4 behemot-obiecująco na szkoleniu, a multimodalny model wizji, Lama 4-V, aby śledzić później.

Podczas gdy Scout jest zbudowany tak, aby pasował do jednego GPU H100 za pomocą kwantyzacji INT4, nadal oferuje najlepszą w swojej klasie długość 10 milionów tokenów, dziesięciokrotnie skok w stosunku do poprzednich modeli. Zawiera 17 miliardów parametrów aktywnych z 16 ekspertami i 109 miliardami parametrów całkowitych.

Maverick udostępnia tę samą aktywną liczbę parametrów, ale skaluje konfigurację MOE do 128 ekspertów i 400 miliardów parametrów całkowitych, co umożliwia bardziej wyrafinowane zadania rozumowania i zrozumienia obrazu. Oba modele przetwarzają obrazy i tekst wspólnie poprzez wczesną fuzję-metodę, w której oba typy tokenów są osadzone w tym samym modelu szkieletu podczas pretracjonowania.

W ramach projektu na poziomie systemu Meta, modele zostały przeszkolone na do 48 zdjęć na przykład, z przetestowanym zwiadowcem po wysiłku aż do ośmiu. To wizualne uziemienie umożliwia takie możliwości, jak lokalizacja obiektów i lepsze dostosowanie zawartości obrazu a monitami językowymi. Według Meta, „Llama 4 Scout jest najlepszy w klasie na uziemieniu obrazu, jest w stanie dostosować podpowiedzi użytkownika z odpowiednimi koncepcjami wizualnymi i reakcjami modelu zakotwiczenia na regiony na obrazie.”

Performance Benchmark: Scout, Maverick i Behemoth

Multimodalny asystent i wewnętrzne odniesienia odzwierciedlają to twierdzenie. W zakresie rozumowania wizualnego osiąga 90,0 na wykresie Chartqa i 94,4 w DOCVQA, przewyższając zarówno GPT-4O, jak i Gemini 2.0 Flash. Loguje również 73,7 na Mathvista i 80,5 na MMLU Pro, co wskazuje na silne ogólne możliwości rozumowania.

W zadaniach programowania Maverick wyniki 43,4 na LiveCodeBench, umieszczając go przed Flashem GPT-4O i Gemini 2.0 i tuż poniżej Deepseek v3.1. Jego asystent wyników jest wzmacniany przez ocenę ELO 1417 na Lmarena. W przypadku opłacalności Meta szacuje koszty wnioskowania od 0,19 do 0,49 USD za milion tokenów w ramach mieszanki wyjściowej 3: 1.

Źródło: Meta

Lama 4 Scout , choć mniejsza w skali, posiada własne wśród modeli w swojej klasie. Oceni 88,8 na Chartqa, dopasowując Maverick do 94,4 w DOCVQA i osiąga 74,3 na MMLU Pro. Wyniki te podkreślają jego skuteczność w odniesieniach wizualnych i rozumujących, szczególnie w przypadku lekkich lub pojedynczych gpu.

Jego wysoka parytet wyników z większymi modelami w zadaniach obrazu sygnalizuje silne optymalizacje projektowe, szczególnie w przypadku przypadków użycia, które wymagają zrozumienia multimodalnego, ale mniej narzutów infrastruktury.

Źródło: Meta

lama 4 Beemoth pozostaje niewydawany, ale służył jako model nauczyciela kodystilowania Maverick i Scout. Z 288 miliardami parametrów aktywnych i prawie 2 bilionów, jego wydajność umieszcza go na górnym szczeblu obecnych LLM. Meta donosi o wynikach porównawczych 95,0 na Math-500, 82,2 na MMLU Pro, 73,7 na Diamond GPQA i 85,8 na wielojęzycznym MMLU.

Wyniki te wskazują, że Behemot przewyższa Sonnet Claude 3.7, Gemini 2.0 Pro i GPT-4,5 w zadaniach STEM i wielojęzycznych rozumowania, wzmacniając jego rolę dla mniejszych modeli Lamy 4.

Źródło: Meta

Strategia treningowa i nowatorskie architektury

LAMA 4 MARKS Pierwsze zastosowanie warstw MoE przeplatanych gęstych warstw w modelach produkcyjnych. Tylko niewielka część parametrów jest aktywowana na token, poprawiając wydajność bez znaczącego wpływu na jakość. Każdy token Mavericka jest kierowany do jednego z 128 ekspertów oraz wspólnego eksperta, z wszystkimi ekspertami załadowanymi w pamięci, ale selektywnie aktywowanymi podczas wnioskowania.

Meta zaimplementował również nowatorski schemat kodowania pozycji o nazwie IROPE-przełomowe obrotowe osadzanie pozycyjne-które spowalnia potrzebę ustalonego tokena pozycyjnego i ulepsza długą kondycję. „Nazywamy to architekturą IROPE, w której„ ja “oznacza„ przeplatane “warstwy uwagi, podkreślając długoterminowy cel wspierania„ nieskończonej “długości kontekstu.”

Scout i Maverick były zarówno wstępnie, jak i po wyszkoleniu w kontekście 256K w celu poprawy adaptacji do dłuższych sekwencji. Firma wykorzystała precyzję FP8 do szkolenia w celu zwiększenia przepustowości, osiągając 390 TFLOP na GPU podczas pretrenowania Behemotha na 32 tys. GPU. Metap, system dynamicznie skalowania inicjalizacji i wskaźników uczenia się, został użyty do uogólnienia strojenia hiperparametrów w różnych rozmiarach modeli i konfiguracji wsadowej.

Zmiany w chmurze i zmiany licencjonowania

Meta tworzy Llama 4 Scout Llama 4 Maverick do pobrania na lłowii i licencji. Podczas uruchomienia Meta współpracuje z głównymi dostawcami chmur w celu przyspieszenia adopcji. AWS już dodał Llama 4 Scout i Llama 4 Maverick do Amazon Sagemaker Jumpstart , z oczekiwanym wsparciem podłoża. Jednocześnie Microsoft wprowadził obsługę za pośrednictwem

również zmieniło się licencjonowanie. W przeciwieństwie do poprzednich modeli LLAMA, które były głównie przeznaczone do badań niekomercyjnych, nowe modele są wydawane w ramach niestandardowej licencji komercyjnej. Meta opisuje to jako elastyczne, choć zatrzymuje się w pełnym statusie open source.

Bezpieczeństwo na poziomie systemowym i redukcji stronniczości

Wraz z ulepszeniami modelu, Meta podkreśliła pakiet zabezpieczeń. Llama strażnik , klasyfikator wejściowy/produkcyjny oparty na taksonomii ryzyka z MlCommons, jest włączona do wykrywania CARMUL CETSED. Szybki straż, trenowany w szerokim zakresie typów ataków, został zaprojektowany w celu złapania prób jailbreak i szybkich zastrzyków. Cybernewska pomaga programistom przetestować modele AI przeciwko zagrożeniom bezpieczeństwa cybernetycznego.

Meta wprowadziła także nowe ramy z czerwonego zespołu o nazwie Goat-ogólne testowanie agentów ofensywnych. To narzędzie symuluje rozmowy z wieloma skręconymi z aktorami przeciwnikowymi o średnich kwalifikacjach, pomagając meta-ekologicznemu zasięgowi i bardziej efektywnie odkryć luki. Bias

pozostaje podstawowym problemem. W testach na politycznie naładowane tematy wskaźniki odmowy w LAMA 4 spadły do ​​poniżej 2%-z 7% w LAMA 3.3. Nierówne odmowy odpowiedzi w różnych ideologiach spadają obecnie poniżej 1%. Meta twierdzi, że działa na temat modeli, które mogą reprezentować różnorodne punkty widzenia bez nakładania stanowiska.

Integracja ekosystemu i przyszła mapa drogowa

Lama 4 Scout and Maverick już żyją w funkcjach Meta AI w funkcjach WhatsApp, Messenger, Instagram Direct i interfejsu internetowego. Integracje te oferują szeroki test testowy do oceny wydajności na wolności, jednocześnie narażając modele na ogromne strumienie wejściowe użytkownika, które mogłyby wpływać na przyszłe ulepszenia.

Patrząc w przyszłość, Meta ma zaprezentować więcej szczegółów na

Pozycja Meta w ekosystemie otwartej, pozostaje dopracowana. Modele LLAMA 4 nie są w pełni open source, ale oferują stopień przejrzystości i elastyczności, który znajduje się między systemami czysto zamkniętymi a modelami opartymi na społeczności. Ich wdrożenie w miliardach punktów końcowych-od interfejsów API w chmurze po aplikacje do przesyłania wiadomości-może kształtować oczekiwania programisty wokół skali, wydajności i odpowiedzialnego wykorzystania w nadchodzących miesiącach.