Meta ได้เปิดตัว Llama 4 Scout และ Llama 4 Maverick สองรุ่นภาษาขนาดใหญ่เปิดกว้างสองรุ่นที่แนะนำการเปลี่ยนแปลงทางสถาปัตยกรรมที่สำคัญในขณะที่ขยายการปรากฏตัวของ บริษัท ข้ามแอพผู้บริโภคและแพลตฟอร์มเมฆ
ทั้งสองรุ่นได้รับการออกแบบด้วยโครงสร้างที่เพิ่มขึ้น เวิร์กโหลด
บริษัท ได้เปิดเผยโมเดลครูพารามิเตอร์ 2 ล้านล้าน-llama 4 behemoth-ปัจจุบันยังอยู่ในการฝึกอบรมและรูปแบบการมองเห็นหลายรูปแบบ llama 4-v เพื่อติดตามในภายหลัง
>
ในขณะที่ลูกเสือถูกสร้างขึ้นเพื่อให้พอดีกับ H100 GPU เดียวผ่านการหาปริมาณ INT4 แต่ก็ยังมีความยาวบริบทโทเค็นที่ดีที่สุด 10 ล้านระดับ มันมีพารามิเตอร์ที่ใช้งานอยู่ 17 พันล้านพารามิเตอร์ที่มีผู้เชี่ยวชาญ 16 คนและพารามิเตอร์ทั้งหมด 109 พันล้านพารามิเตอร์
ผู้ไม่ฝักใฝ่ฝ่ายใดแบ่งปันจำนวนพารามิเตอร์ที่ใช้งานเดียวกัน แต่ปรับการตั้งค่า MOE เป็นผู้เชี่ยวชาญ 128 คนและพารามิเตอร์ทั้งหมด 400 พันล้านพารามิเตอร์ ทั้งสองรุ่นประมวลผลภาพและข้อความร่วมกันผ่านฟิวชั่นต้น-วิธีที่ทั้งสองประเภทโทเค็นถูกฝังอยู่ในโมเดลกระดูกสันหลังเดียวกันในระหว่างการเตรียมการ
ซึ่งเป็นส่วนหนึ่งของการออกแบบระดับระบบของเมตา การลงดินแบบภาพนี้ช่วยให้ความสามารถเช่นการแปลวัตถุและการจัดตำแหน่งที่ดีขึ้นระหว่างเนื้อหาภาพและการแจ้งภาษา จากข้อมูลของ Meta“ Llama 4 Scout นั้นดีที่สุดในชั้นเรียนบนพื้นดินสามารถจัดตำแหน่งให้ผู้ใช้พร้อมกับแนวคิดการมองเห็นที่เกี่ยวข้องและการตอบสนองแบบจำลองการตอบสนองต่อภูมิภาคในภาพ”
ประสิทธิภาพการทำงานของเกณฑ์มาตรฐาน ผู้ช่วยหลายรูปแบบและมาตรฐานภายในสะท้อนให้เห็นถึงการเรียกร้องนั้น ในงานการให้เหตุผลด้านภาพมันประสบความสำเร็จ 90.0 ใน Chartqa และ 94.4 บน Docvqa ซึ่งมีประสิทธิภาพสูงกว่าทั้ง GPT-4O และ Gemini 2.0 Flash นอกจากนี้ยังบันทึก 73.7 บน Mathvista และ 80.5 บน MMLU Pro ซึ่งบ่งบอกถึงความสามารถในการใช้เหตุผลทั่วไปที่แข็งแกร่ง
ในงานการเขียนโปรแกรม Maverick ทำคะแนน 43.4 บน LiveCodeBench วางไว้ข้างหน้า GPT-4O และ Gemini 2.0 Flash และต่ำกว่า Deepseek V3.1 การแสดงของผู้ช่วยได้รับการเสริมด้วยคะแนน ELO ของ 1417 ใน Lmarena สำหรับประสิทธิภาพต้นทุนค่าใช้จ่ายการอนุมานของเมตาระหว่าง $ 0.19– $ 0.49 ต่อล้านโทเค็นภายใต้การผสมผสานอินพุต 3: 1 การผสมผสานอินพุต output
ที่มา: Meta
Llama 4 Scout ในขณะที่มีขนาดเล็กลงถือเป็นของตัวเอง มันทำคะแนน 88.8 ใน Chartqa จับคู่ Maverick กับ 94.4 บน Docvqa และถึง 74.3 ใน MMLU Pro ผลลัพธ์เหล่านี้เน้นประสิทธิภาพในการวัดภาพและการใช้เหตุผลโดยเฉพาะอย่างยิ่งสำหรับการปรับใช้ GPU ที่มีน้ำหนักเบาหรือเดียว
ความเท่าเทียมกันของคะแนนสูงพร้อมโมเดลขนาดใหญ่ในงานภาพส่งสัญญาณการปรับแต่งการออกแบบที่แข็งแกร่งโดยเฉพาะอย่างยิ่งสำหรับกรณีการใช้งานที่ต้องการความเข้าใจหลายรูปแบบบริบท src=”ข้อมูล: image/svg+xml; nitro-empty-id=mtcxndoxodq3-1; base64, phn2zyb2awv3qm94psiwidagmtaynca3mjuiih dpzhropsixmdi0iibozwlnahq9ijcynsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> แหล่งที่มา: Meta
llama 4 behemoth ยังคงไม่เผยแพร่ แต่ทำหน้าที่เป็นแบบจำลองครูสำหรับ Codistillation ของ Maverick และ Scout ด้วยพารามิเตอร์ที่ใช้งานอยู่ 288 พันล้านและเกือบ 2 ล้านล้านทั้งหมดประสิทธิภาพของมันจะวางไว้ในระดับบนของ LLMS ปัจจุบัน Meta รายงานคะแนนมาตรฐาน 95.0 ใน MATH-500, 82.2 บน MMLU Pro, 73.7 บนเพชร GPQA และ 85.8 ใน MMLU หลายภาษา
คะแนนเหล่านี้บ่งชี้ว่า behemoth เหนือกว่า Claude Sonnet 3.7, Gemini 2.0 Pro และ GPT-4.5 ในงานต้นกำเนิดและการใช้เหตุผลหลายภาษาเสริมบทบาทเป็นรากฐานสำหรับรุ่น Llama 4 ขนาดเล็ก
แหล่งที่มา: Meta
กลยุทธ์การฝึกอบรมและสถาปัตยกรรมใหม่
Llama 4 Marks Meta ใช้เลเยอร์ Moe ครั้งแรกที่สลับกับชั้นหนาแน่นในรูปแบบการผลิต มีการเปิดใช้งานพารามิเตอร์เพียงเล็กน้อยเพียงเล็กน้อยต่อโทเค็นซึ่งปรับปรุงประสิทธิภาพโดยไม่ส่งผลกระทบต่อคุณภาพอย่างมีนัยสำคัญ โทเค็นที่ไม่ฝักใฝ่ฝ่ายใดแต่ละคนจะถูกส่งไปยังหนึ่งใน 128 ผู้เชี่ยวชาญรวมถึงผู้เชี่ยวชาญที่ใช้ร่วมกันโดยผู้เชี่ยวชาญทุกคนโหลดในหน่วยความจำ แต่เปิดใช้งานอย่างเลือกในระหว่างการอนุมาน
เมตายังใช้รูปแบบการเข้ารหัสตำแหน่งใหม่ที่เรียกว่า Irope “ เราเรียกสิ่งนี้ว่าสถาปัตยกรรม Irope ที่ ‘ฉัน’ หมายถึงเลเยอร์ความสนใจ’interleaved’โดยเน้นเป้าหมายระยะยาวของการสนับสนุนความยาวบริบท ‘อนันต์’”
ลูกเสือและผู้ไม่ฝักใฝ่ฝ่ายใด บริษัท ใช้ความแม่นยำ FP8 สำหรับการฝึกอบรมเพื่อเพิ่มปริมาณงานโดยได้รับ 390 TFLOPS ต่อ GPU ในระหว่างการเตรียมการของ Behemoth ใน GPU 32K METAP ซึ่งเป็นระบบสำหรับการเริ่มต้นการเริ่มต้นและอัตราการเรียนรู้แบบไดนามิกถูกนำมาใช้เพื่อทั่วไปการปรับจูนไฮเปอร์พารามิเตอร์ในขนาดโมเดลที่แตกต่างกันและการกำหนดค่าแบทช์
ความพร้อมใช้งานของคลาวด์ สำหรับการเปิดตัว Meta ร่วมมือกับผู้ให้บริการคลาวด์รายใหญ่เพื่อเร่งการยอมรับ AWS ได้เพิ่ม Llama 4 Scout และ Llama 4 Maverick ถึง Amazon Sagemaker Jumpstart ในเวลาเดียวกัน Microsoft เปิดตัวการสนับสนุนผ่าน
การออกใบอนุญาตก็เปลี่ยนไปเช่นกัน ซึ่งแตกต่างจากรุ่น Llama ก่อนหน้านี้ซึ่งมีวัตถุประสงค์หลักสำหรับการวิจัยที่ไม่ใช่เชิงพาณิชย์รุ่นใหม่จะถูกปล่อยออกมาภายใต้ใบอนุญาตเชิงพาณิชย์แบบกำหนดเอง Meta อธิบายว่ามันมีความยืดหยุ่นแม้ว่ามันจะหยุดสถานะการเปิดโอเพ่นซอร์สเต็มรูปแบบ
ความปลอดภัยระดับระบบและการลดอคติ
ควบคู่ไปกับการปรับปรุงแบบจำลอง Meta เน้นชุดป้องกัน llama guard ยามพร้อมที่จะได้รับการฝึกฝนเกี่ยวกับการโจมตีที่หลากหลายได้รับการออกแบบมาเพื่อจับความพยายามในการแหกคุกและการฉีดทันที Cyberseceval ช่วยให้นักพัฒนาทดสอบโมเดล AI กับภัยคุกคามความปลอดภัยทางไซเบอร์
Meta ยังแนะนำกรอบการประชุมสีแดงใหม่ที่เรียกว่าแพะ-การทดสอบตัวแทนที่น่ารังเกียจ เครื่องมือนี้จำลองการสนทนาหลายครั้งกับนักแสดงที่มีทักษะปานกลางช่วยให้เมตาเพิ่มความครอบคลุมการทดสอบและเปิดเผยช่องโหว่ได้อย่างมีประสิทธิภาพมากขึ้น
อคติยังคงเป็นปัญหาหลัก ในการทดสอบในหัวข้อที่ถูกเรียกเก็บเงินทางการเมืองอัตราการปฏิเสธใน Llama 4 ได้ลดลงต่ำกว่า 2%-ลดลงจาก 7% ใน Llama 3.3 การตอบโต้การตอบสนองที่ไม่เท่ากันในอุดมการณ์ตอนนี้ลดลงต่ำกว่า 1% Meta กล่าวว่ากำลังทำงานไปสู่แบบจำลองที่สามารถแสดงมุมมองที่หลากหลายโดยไม่ต้องใช้ท่าทาง
การรวมระบบนิเวศและแผนการทำงานในอนาคต
Llama 4 Scout และ Maverick อาศัยอยู่ใน Meta AI การบูรณาการเหล่านี้นำเสนอการทดสอบในวงกว้างเพื่อประเมินประสิทธิภาพในป่าในขณะที่เปิดเผยโมเดลไปยังสตรีมอินพุตของผู้ใช้จำนวนมากที่สามารถแจ้งการปรับปรุงในอนาคตได้
มองไปข้างหน้า Meta ถูกตั้งค่าเพื่อแสดงรายละเอียดเพิ่มเติมที่
การออกใบอนุญาตก็เปลี่ยนไปเช่นกัน ซึ่งแตกต่างจากรุ่น Llama ก่อนหน้านี้ซึ่งมีวัตถุประสงค์หลักสำหรับการวิจัยที่ไม่ใช่เชิงพาณิชย์รุ่นใหม่จะถูกปล่อยออกมาภายใต้ใบอนุญาตเชิงพาณิชย์แบบกำหนดเอง Meta อธิบายว่ามันมีความยืดหยุ่นแม้ว่ามันจะหยุดสถานะการเปิดโอเพ่นซอร์สเต็มรูปแบบ
ความปลอดภัยระดับระบบและการลดอคติ
ควบคู่ไปกับการปรับปรุงแบบจำลอง Meta เน้นชุดป้องกัน llama guard ยามพร้อมที่จะได้รับการฝึกฝนเกี่ยวกับการโจมตีที่หลากหลายได้รับการออกแบบมาเพื่อจับความพยายามในการแหกคุกและการฉีดทันที Cyberseceval ช่วยให้นักพัฒนาทดสอบโมเดล AI กับภัยคุกคามความปลอดภัยทางไซเบอร์
Meta ยังแนะนำกรอบการประชุมสีแดงใหม่ที่เรียกว่าแพะ-การทดสอบตัวแทนที่น่ารังเกียจ เครื่องมือนี้จำลองการสนทนาหลายครั้งกับนักแสดงที่มีทักษะปานกลางช่วยให้เมตาเพิ่มความครอบคลุมการทดสอบและเปิดเผยช่องโหว่ได้อย่างมีประสิทธิภาพมากขึ้น
อคติยังคงเป็นปัญหาหลัก ในการทดสอบในหัวข้อที่ถูกเรียกเก็บเงินทางการเมืองอัตราการปฏิเสธใน Llama 4 ได้ลดลงต่ำกว่า 2%-ลดลงจาก 7% ใน Llama 3.3 การตอบโต้การตอบสนองที่ไม่เท่ากันในอุดมการณ์ตอนนี้ลดลงต่ำกว่า 1% Meta กล่าวว่ากำลังทำงานไปสู่แบบจำลองที่สามารถแสดงมุมมองที่หลากหลายโดยไม่ต้องใช้ท่าทาง
การรวมระบบนิเวศและแผนการทำงานในอนาคต
Llama 4 Scout และ Maverick อาศัยอยู่ใน Meta AI การบูรณาการเหล่านี้นำเสนอการทดสอบในวงกว้างเพื่อประเมินประสิทธิภาพในป่าในขณะที่เปิดเผยโมเดลไปยังสตรีมอินพุตของผู้ใช้จำนวนมากที่สามารถแจ้งการปรับปรุงในอนาคตได้
มองไปข้างหน้า Meta ถูกตั้งค่าเพื่อแสดงรายละเอียดเพิ่มเติมที่