Meta เปิดตัวรุ่นใหม่ Llama 4 AI ที่มีหน้าต่างบริบทขนาดใหญ่ถึง 10 ล้านโทเค็น

Meta ได้เปิดตัว Llama 4 Scout และ Llama 4 Maverick สองรุ่นภาษาขนาดใหญ่เปิดกว้างสองรุ่นที่แนะนำการเปลี่ยนแปลงทางสถาปัตยกรรมที่สำคัญในขณะที่ขยายการปรากฏตัวของ บริษัท ข้ามแอพผู้บริโภคและแพลตฟอร์มเมฆ

ทั้งสองรุ่นได้รับการออกแบบด้วยโครงสร้างที่เพิ่มขึ้น เวิร์กโหลด

บริษัท ได้เปิดเผยโมเดลครูพารามิเตอร์ 2 ล้านล้าน-llama 4 behemoth-ปัจจุบันยังอยู่ในการฝึกอบรมและรูปแบบการมองเห็นหลายรูปแบบ llama 4-v เพื่อติดตามในภายหลัง

ในขณะที่ลูกเสือถูกสร้างขึ้นเพื่อให้พอดีกับ H100 GPU เดียวผ่านการหาปริมาณ INT4 แต่ก็ยังมีความยาวบริบทโทเค็นที่ดีที่สุด 10 ล้านระดับ มันมีพารามิเตอร์ที่ใช้งานอยู่ 17 พันล้านพารามิเตอร์ที่มีผู้เชี่ยวชาญ 16 คนและพารามิเตอร์ทั้งหมด 109 พันล้านพารามิเตอร์

ผู้ไม่ฝักใฝ่ฝ่ายใดแบ่งปันจำนวนพารามิเตอร์ที่ใช้งานเดียวกัน แต่ปรับการตั้งค่า MOE เป็นผู้เชี่ยวชาญ 128 คนและพารามิเตอร์ทั้งหมด 400 พันล้านพารามิเตอร์ ทั้งสองรุ่นประมวลผลภาพและข้อความร่วมกันผ่านฟิวชั่นต้น-วิธีที่ทั้งสองประเภทโทเค็นถูกฝังอยู่ในโมเดลกระดูกสันหลังเดียวกันในระหว่างการเตรียมการ

ซึ่งเป็นส่วนหนึ่งของการออกแบบระดับระบบของเมตา การลงดินแบบภาพนี้ช่วยให้ความสามารถเช่นการแปลวัตถุและการจัดตำแหน่งที่ดีขึ้นระหว่างเนื้อหาภาพและการแจ้งภาษา จากข้อมูลของ Meta“ Llama 4 Scout นั้นดีที่สุดในชั้นเรียนบนพื้นดินสามารถจัดตำแหน่งให้ผู้ใช้พร้อมกับแนวคิดการมองเห็นที่เกี่ยวข้องและการตอบสนองแบบจำลองการตอบสนองต่อภูมิภาคในภาพ”

ประสิทธิภาพการทำงานของเกณฑ์มาตรฐาน ผู้ช่วยหลายรูปแบบและมาตรฐานภายในสะท้อนให้เห็นถึงการเรียกร้องนั้น ในงานการให้เหตุผลด้านภาพมันประสบความสำเร็จ 90.0 ใน Chartqa และ 94.4 บน Docvqa ซึ่งมีประสิทธิภาพสูงกว่าทั้ง GPT-4O และ Gemini 2.0 Flash นอกจากนี้ยังบันทึก 73.7 บน Mathvista และ 80.5 บน MMLU Pro ซึ่งบ่งบอกถึงความสามารถในการใช้เหตุผลทั่วไปที่แข็งแกร่ง

ในงานการเขียนโปรแกรม Maverick ทำคะแนน 43.4 บน LiveCodeBench วางไว้ข้างหน้า GPT-4O และ Gemini 2.0 Flash และต่ำกว่า Deepseek V3.1 การแสดงของผู้ช่วยได้รับการเสริมด้วยคะแนน ELO ของ 1417 ใน Lmarena สำหรับประสิทธิภาพต้นทุนค่าใช้จ่ายการอนุมานของเมตาระหว่าง $ 0.19– $ 0.49 ต่อล้านโทเค็นภายใต้การผสมผสานอินพุต 3: 1 การผสมผสานอินพุต output

ที่มา: Meta

Llama 4 Scout ในขณะที่มีขนาดเล็กลงถือเป็นของตัวเอง มันทำคะแนน 88.8 ใน Chartqa จับคู่ Maverick กับ 94.4 บน Docvqa และถึง 74.3 ใน MMLU Pro ผลลัพธ์เหล่านี้เน้นประสิทธิภาพในการวัดภาพและการใช้เหตุผลโดยเฉพาะอย่างยิ่งสำหรับการปรับใช้ GPU ที่มีน้ำหนักเบาหรือเดียว

ความเท่าเทียมกันของคะแนนสูงพร้อมโมเดลขนาดใหญ่ในงานภาพส่งสัญญาณการปรับแต่งการออกแบบที่แข็งแกร่งโดยเฉพาะอย่างยิ่งสำหรับกรณีการใช้งานที่ต้องการความเข้าใจหลายรูปแบบบริบท src=”ข้อมูล: image/svg+xml; nitro-empty-id=mtcxndoxodq3-1; base64, phn2zyb2awv3qm94psiwidagmtaynca3mjuiih dpzhropsixmdi0iibozwlnahq9ijcynsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> แหล่งที่มา: Meta

llama 4 behemoth ยังคงไม่เผยแพร่ แต่ทำหน้าที่เป็นแบบจำลองครูสำหรับ Codistillation ของ Maverick และ Scout ด้วยพารามิเตอร์ที่ใช้งานอยู่ 288 พันล้านและเกือบ 2 ล้านล้านทั้งหมดประสิทธิภาพของมันจะวางไว้ในระดับบนของ LLMS ปัจจุบัน Meta รายงานคะแนนมาตรฐาน 95.0 ใน MATH-500, 82.2 บน MMLU Pro, 73.7 บนเพชร GPQA และ 85.8 ใน MMLU หลายภาษา

คะแนนเหล่านี้บ่งชี้ว่า behemoth เหนือกว่า Claude Sonnet 3.7, Gemini 2.0 Pro และ GPT-4.5 ในงานต้นกำเนิดและการใช้เหตุผลหลายภาษาเสริมบทบาทเป็นรากฐานสำหรับรุ่น Llama 4 ขนาดเล็ก

แหล่งที่มา: Meta

กลยุทธ์การฝึกอบรมและสถาปัตยกรรมใหม่

Llama 4 Marks Meta ใช้เลเยอร์ Moe ครั้งแรกที่สลับกับชั้นหนาแน่นในรูปแบบการผลิต มีการเปิดใช้งานพารามิเตอร์เพียงเล็กน้อยเพียงเล็กน้อยต่อโทเค็นซึ่งปรับปรุงประสิทธิภาพโดยไม่ส่งผลกระทบต่อคุณภาพอย่างมีนัยสำคัญ โทเค็นที่ไม่ฝักใฝ่ฝ่ายใดแต่ละคนจะถูกส่งไปยังหนึ่งใน 128 ผู้เชี่ยวชาญรวมถึงผู้เชี่ยวชาญที่ใช้ร่วมกันโดยผู้เชี่ยวชาญทุกคนโหลดในหน่วยความจำ แต่เปิดใช้งานอย่างเลือกในระหว่างการอนุมาน

เมตายังใช้รูปแบบการเข้ารหัสตำแหน่งใหม่ที่เรียกว่า Irope “ เราเรียกสิ่งนี้ว่าสถาปัตยกรรม Irope ที่ ‘ฉัน’ หมายถึงเลเยอร์ความสนใจ’interleaved’โดยเน้นเป้าหมายระยะยาวของการสนับสนุนความยาวบริบท ‘อนันต์’”

ลูกเสือและผู้ไม่ฝักใฝ่ฝ่ายใด บริษัท ใช้ความแม่นยำ FP8 สำหรับการฝึกอบรมเพื่อเพิ่มปริมาณงานโดยได้รับ 390 TFLOPS ต่อ GPU ในระหว่างการเตรียมการของ Behemoth ใน GPU 32K METAP ซึ่งเป็นระบบสำหรับการเริ่มต้นการเริ่มต้นและอัตราการเรียนรู้แบบไดนามิกถูกนำมาใช้เพื่อทั่วไปการปรับจูนไฮเปอร์พารามิเตอร์ในขนาดโมเดลที่แตกต่างกันและการกำหนดค่าแบทช์

ความพร้อมใช้งานของคลาวด์ สำหรับการเปิดตัว Meta ร่วมมือกับผู้ให้บริการคลาวด์รายใหญ่เพื่อเร่งการยอมรับ AWS ได้เพิ่ม Llama 4 Scout และ Llama 4 Maverick ถึง Amazon Sagemaker Jumpstart ในเวลาเดียวกัน Microsoft เปิดตัวการสนับสนุนผ่าน
การออกใบอนุญาตก็เปลี่ยนไปเช่นกัน ซึ่งแตกต่างจากรุ่น Llama ก่อนหน้านี้ซึ่งมีวัตถุประสงค์หลักสำหรับการวิจัยที่ไม่ใช่เชิงพาณิชย์รุ่นใหม่จะถูกปล่อยออกมาภายใต้ใบอนุญาตเชิงพาณิชย์แบบกำหนดเอง Meta อธิบายว่ามันมีความยืดหยุ่นแม้ว่ามันจะหยุดสถานะการเปิดโอเพ่นซอร์สเต็มรูปแบบ

ความปลอดภัยระดับระบบและการลดอคติ

ควบคู่ไปกับการปรับปรุงแบบจำลอง Meta เน้นชุดป้องกัน llama guard ยามพร้อมที่จะได้รับการฝึกฝนเกี่ยวกับการโจมตีที่หลากหลายได้รับการออกแบบมาเพื่อจับความพยายามในการแหกคุกและการฉีดทันที Cyberseceval ช่วยให้นักพัฒนาทดสอบโมเดล AI กับภัยคุกคามความปลอดภัยทางไซเบอร์

Meta ยังแนะนำกรอบการประชุมสีแดงใหม่ที่เรียกว่าแพะ-การทดสอบตัวแทนที่น่ารังเกียจ เครื่องมือนี้จำลองการสนทนาหลายครั้งกับนักแสดงที่มีทักษะปานกลางช่วยให้เมตาเพิ่มความครอบคลุมการทดสอบและเปิดเผยช่องโหว่ได้อย่างมีประสิทธิภาพมากขึ้น

อคติยังคงเป็นปัญหาหลัก ในการทดสอบในหัวข้อที่ถูกเรียกเก็บเงินทางการเมืองอัตราการปฏิเสธใน Llama 4 ได้ลดลงต่ำกว่า 2%-ลดลงจาก 7% ใน Llama 3.3 การตอบโต้การตอบสนองที่ไม่เท่ากันในอุดมการณ์ตอนนี้ลดลงต่ำกว่า 1% Meta กล่าวว่ากำลังทำงานไปสู่แบบจำลองที่สามารถแสดงมุมมองที่หลากหลายโดยไม่ต้องใช้ท่าทาง

การรวมระบบนิเวศและแผนการทำงานในอนาคต

Llama 4 Scout และ Maverick อาศัยอยู่ใน Meta AI การบูรณาการเหล่านี้นำเสนอการทดสอบในวงกว้างเพื่อประเมินประสิทธิภาพในป่าในขณะที่เปิดเผยโมเดลไปยังสตรีมอินพุตของผู้ใช้จำนวนมากที่สามารถแจ้งการปรับปรุงในอนาคตได้

มองไปข้างหน้า Meta ถูกตั้งค่าเพื่อแสดงรายละเอียดเพิ่มเติมที่

Meta เปิดตัวรุ่นใหม่ Llama 4 AI ที่มีหน้าต่างบริบทขนาดใหญ่ถึง 10 ล้านโทเค็น

Published by All Things Windows on April 6, 2025

กลยุทธ์การฝึกอบรมและสถาปัตยกรรมใหม่

ความปลอดภัยระดับระบบและการลดอคติ

การรวมระบบนิเวศและแผนการทำงานในอนาคต

IT Info

IT Info

โมเดล Nova Sonic Voice ใหม่ของ Amazon กำหนดเป้าหมายเสียง AI คู่แข่งด้วยเอาท์พุทการแสดงออกแบบเรียลไทม์

IT Info

Google Deepmind จ่ายพนักงาน AI อย่างเงียบ ๆ เพื่อนั่งหนึ่งปีแทนที่จะเข้าร่วมคู่แข่ง

Meta เปิดตัวรุ่นใหม่ Llama 4 AI ที่มีหน้าต่างบริบทขนาดใหญ่ถึง 10 ล้านโทเค็น

Published by All Things Windows on April 6, 2025

กลยุทธ์การฝึกอบรมและสถาปัตยกรรมใหม่

ความปลอดภัยระดับระบบและการลดอคติ

การรวมระบบนิเวศและแผนการทำงานในอนาคต

Related Posts

IT Info

IT Info

โมเดล Nova Sonic Voice ใหม่ของ Amazon กำหนดเป้าหมายเสียง AI คู่แข่งด้วยเอาท์พุทการแสดงออกแบบเรียลไทม์

IT Info

Google Deepmind จ่ายพนักงาน AI อย่างเงียบ ๆ เพื่อนั่งหนึ่งปีแทนที่จะเข้าร่วมคู่แข่ง