Meta đã phát hành Llama 4 Scout và Llama 4 Maverick, hai mô hình ngôn ngữ lớn biên giới có trọng lượng giới thiệu các thay đổi kiến trúc lớn trong khi mở rộng sự hiện diện của công ty trên các ứng dụng tiêu dùng và nền tảng đám mây. Khối lượng công việc. src=”Dữ liệu: Image/SVG+XML; Qiihdpzhropsixmdi0iibozwlnahq9ijg3ncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Mặc dù Scout được xây dựng để phù hợp với một GPU H100 thông qua Quant hóa Int4, nhưng nó vẫn cung cấp chiều dài ngữ cảnh 10 triệu mã thông báo tốt nhất, một bước nhảy vọt gấp mười lần so với các mô hình trước đó. Nó có tính năng 17 tỷ tham số hoạt động với 16 chuyên gia và tổng số 109 tỷ tham số. Cả hai mô hình đều xử lý hình ảnh và văn bản cùng thông qua Fusion Fusion, một phương pháp trong đó cả hai loại mã thông báo được nhúng trong cùng một mô hình xương sống trong quá trình xử lý trước. Grounding trực quan này cho phép các khả năng như nội địa hóa đối tượng và sự liên kết được cải thiện giữa nội dung hình ảnh và lời nhắc ngôn ngữ. Theo Meta, Scout Llama 4 là tốt nhất trên lớp hình ảnh, có thể sắp xếp các lời nhắc của người dùng với các khái niệm trực quan có liên quan và phản ứng mô hình neo cho các vùng trong hình ảnh.”Trợ lý đa phương thức, và điểm chuẩn nội bộ phản ánh tuyên bố đó. Về các nhiệm vụ lý luận trực quan, nó đạt được 90.0 trên Chartqa và 94.4 trên DocVQA, vượt trội so với cả đèn flash GPT-4O và Gemini 2.0. Nó cũng đăng nhập 73,7 trên Mathvista và 80,5 trên MMLU Pro, cho thấy khả năng lý luận chung mạnh mẽ.
Trong các tác vụ lập trình, Maverick điểm số 43,4 trên LiveCodeBench, đặt nó trước Flash GPT-4O và Gemini 2.0, và ngay dưới Deepseek v3.1. Hiệu suất trợ lý của nó được củng cố bằng xếp hạng ELO là 1417 trên Lmarena. Đối với hiệu quả chi phí, các ước tính của meta, chi phí suy luận trong khoảng 0,19 đô la 0,49 đô la trên một triệu mã thông báo theo hỗn hợp đầu vào 3: 1. Nó đạt 88.8 trên Chartqa, phù hợp với Maverick với 94,4 trên DocVQA và đạt 74,3 trên MMLU Pro. Những kết quả này nhấn mạnh hiệu quả của nó trong các điểm chuẩn trực quan và lý luận, đặc biệt là đối với các triển khai nhẹ hoặc GPU đơn.
Tính tương đương điểm số cao của nó với các mô hình lớn hơn trong các tác vụ hình ảnh báo hiệu các tối ưu hóa thiết kế mạnh mẽ, đặc biệt đối với các trường hợp sử dụng yêu cầu sự hiểu biết đa phương thức giàu bối cảnh nhưng chi phí cơ sở hạ tầng ít hơn. src=”Dữ liệu: Image/SVG+XML; DPZHROPSIXMDI0IIBOZWLNAHQ9IJCYNSIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB Meta
llama 4 Behemoth vẫn chưa được phát hành nhưng phục vụ như là mô hình giáo viên cho việc xử lý Maverick và Scout. Với 288 tỷ tham số hoạt động và tổng cộng gần 2 nghìn tỷ, hiệu suất của nó đặt nó ở phần trên của LLM hiện tại. Meta báo cáo điểm số điểm chuẩn 95.0 trên Math-500, 82.2 trên MMLU Pro, 73.7 trên GPQA Diamond và 85.8 trên MMLU đa ngôn ngữ.
Những điểm số này cho thấy rằng Behemoth vượt qua Claude Sonnet 3.7, Gemini 2.0 Pro và GPT-4.5 trong các nhiệm vụ lý luận đa ngôn ngữ và đa ngôn ngữ, củng cố vai trò của nó như là nền tảng cho các mô hình LLAMA 4 nhỏ hơn. src=”Data: Image/SVG+XML; DPZHROPSIXMDI0IIBOZWLNAHQ9IJU0MIIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB Chiến lược đào tạo và kiến trúc đào tạo Meta
Chỉ một phần nhỏ các tham số được kích hoạt trên mỗi mã thông báo, cải thiện hiệu quả mà không ảnh hưởng đáng kể đến chất lượng. Mỗi mã thông báo Maverick được chuyển đến một trong 128 chuyên gia cộng với một chuyên gia được chia sẻ, với tất cả các chuyên gia được tải trong bộ nhớ nhưng được kích hoạt có chọn lọc trong quá trình suy luận. Chúng tôi gọi đây là kiến trúc IROPE, trong đó ’I, viết tắt của các lớp chú ý xen kẽ, làm nổi bật mục tiêu dài hạn là hỗ trợ chiều dài bối cảnh vô hạn.”Công ty đã sử dụng độ chính xác của FP8 để đào tạo để tăng thông lượng, đạt được 390 TFLOPS mỗi GPU trong thời gian xử lý trước khi điều khiển GPU 32K. MetAP, một hệ thống để tăng tỷ lệ khởi tạo và tỷ lệ học tập, đã được sử dụng để khái quát hóa điều chỉnh siêu phân tích theo các kích thước mô hình khác nhau và cấu hình hàng loạt. Để ra mắt, Meta đã hợp tác với các nhà cung cấp đám mây lớn để đẩy nhanh việc áp dụng. AWS đã thêm Llama 4 Scout và Llama 4 Maverick vào Amazon Sagemaker JumpStart , với hỗ trợ Bedrock dự kiến sớm. Đồng thời, Microsoft đã đưa ra hỗ trợ thông qua Bảo vệ kịp thời, được đào tạo về một loạt các loại tấn công, được thiết kế để bắt các nỗ lực bẻ khóa và tiêm nhanh chóng. Cyberseceval giúp các nhà phát triển kiểm tra các mô hình AI chống lại các mối đe dọa an ninh mạng. Công cụ này mô phỏng các cuộc hội thoại nhiều lượt với các tác nhân đối nghịch có tay nghề trung bình, giúp meta tăng độ bao phủ thử nghiệm và khám phá các lỗ hổng hiệu quả hơn.
Bias vẫn là một mối quan tâm cốt lõi. Trong các thử nghiệm về các chủ đề được tính chính trị, tỷ lệ từ chối trong Llama 4 đã giảm xuống dưới 2% từ 7% trong Llama 3,3. Các từ chối phản hồi không đồng đều trên các hệ tư tưởng hiện giảm xuống dưới 1%. Meta cho biết họ đang làm việc hướng tới các mô hình có thể đại diện cho các quan điểm đa dạng mà không áp đặt lập trường. Các tích hợp này cung cấp một thử nghiệm rộng để đánh giá hiệu suất trong tự nhiên, đồng thời hiển thị các mô hình với các luồng đầu vào của người dùng rộng lớn có thể thông báo cho các cải tiến trong tương lai. Các chủ đề sẽ bao gồm mở rộng thêm mô hình Behemoth và giới thiệu Llama 4-V, một mô hình ngôn ngữ tầm nhìn đa phương thức hoàn toàn có khả năng xử lý cả đầu vào hình ảnh tĩnh và thời gian. Thông báo nhấn mạnh Meta, nhằm mục đích cung cấp các hệ thống không chỉ có khả năng ngôn ngữ, mà còn có khả năng lý luận đa phương thức có độ chính xác cao. Các mô hình Llama 4 không có nguồn mở hoàn toàn, nhưng chúng cung cấp một mức độ minh bạch và linh hoạt nằm giữa các hệ thống hoàn toàn đóng và các mô hình dựa trên cộng đồng. Việc triển khai của họ trên hàng tỷ điểm cuối, từ các API đám mây đến các ứng dụng nhắn tin có thể có hình dạng kỳ vọng của nhà phát triển về quy mô, hiệu suất và sử dụng có trách nhiệm trong những tháng tới.