Google ได้ก้าวไปสู่การทำให้โมเดล AI ที่มีความสามารถมากขึ้นทำงานได้บนฮาร์ดแวร์ในชีวิตประจำวันโดยการปล่อยตระกูล Gemma 3 รุ่นที่ได้รับการปรับให้เหมาะสมเป็นพิเศษ
รุ่นใช้การฝึกอบรมเชิงปริมาณ (QAT) ความต้องการ ผลลัพธ์หลักคือโมเดลที่มีความซับซ้อนรวมถึงตัวแปร Gemma 3 27B ขนาดใหญ่ตอนนี้สามารถทำงานบนการ์ดกราฟิกระดับผู้บริโภคที่ได้รับความนิยมย้ายออกจากโดเมนพิเศษของตัวเร่งความเร็วศูนย์ข้อมูลระดับสูง
Google ได้ส่งสัญญาณความตั้งใจ แผนดังกล่าวได้รับการรับรู้ด้วยการปล่อย QAT เหล่านี้
>
การเปิดตัวตามการเปิดตัวครั้งแรกของ Gemma 3 Series เมื่อวันที่ 12 มีนาคม การเปิดตัวนั้นเปิดตัวโมเดลที่ครอบคลุมถึง 1 พันล้านถึง 27 พันล้านพารามิเตอร์ชื่นชมประสิทธิภาพที่แข็งแกร่ง-โมเดล 27B ทำคะแนนได้ดีในการเปรียบเทียบเช่น LMSYS Chatbot Arena ซึ่งเป็นโมเดลการจัดอันดับระบบผ่านการตั้งค่าของมนุษย์-แต่การพึ่งพารูปแบบ BF16 ที่สำคัญ Smarts
เทคนิคสำคัญคือการฝึกอบรมเชิงปริมาณ (QAT) ซึ่งแตกต่างจากการบีบอัดแบบจำลองหลังจากการฝึกอบรมเสร็จสมบูรณ์ (การฝึกอบรมหลังการฝึกอบรมหรือ PTQ), QAT รวมข้อ จำกัด ของความแม่นยำเชิงตัวเลขที่ต่ำกว่าลงในลูปการฝึกอบรมเองโดยจำลองการดำเนินการเหล่านี้ในระหว่างกระบวนการ
Google ระบุว่าการเริ่มต้นของ บริษัท ลดคุณภาพการลดลงตามปกติอย่างมีนัยสำคัญที่เกี่ยวข้องกับการวัดปริมาณโดยอ้างถึงการลดลง 54% ในการลดลงของความงุนงง (การวัดว่าแบบจำลองทำนายข้อความได้ดีเพียงใด) สำหรับ“ Q4_0 [รูปแบบ] โดยใช้ Llama.cpp การประเมินความงุนงง” เมื่อเทียบกับวิธีมาตรฐาน
การลดลงนี้หมายถึงรุ่น INT4 14.1 GB ตอนนี้เหมาะกับ 24GB VRAM ที่พบในการ์ด GB ใน 24GB เช่นเดียวกับแล็ปท็อป Nvidia RTX 4060), 4B จาก 8 GB ถึง 2.6 GB และ 1B ขนาดเล็กจาก 2 GB ถึง 0.5 GB ในขณะที่การออมเหล่านี้มีความสำคัญ
แหล่งที่มา: Google
Google เพิ่มอย่างรอบคอบในการประกาศ:“ ตัวเลขนี้แสดงถึง VRAM ที่จำเป็นในการโหลดน้ำหนักรุ่นเท่านั้นการใช้แบบจำลองยังต้องใช้ VRAM เพิ่มเติมสำหรับแคช KV ซึ่งเก็บข้อมูลเกี่ยวกับการสนทนาอย่างต่อเนื่องและขึ้นอยู่กับความยาวบริบท” การประหยัดหน่วยความจำที่ใช้ QAT นี้เติมเต็มประสิทธิภาพทางสถาปัตยกรรมที่มีอยู่ใน Gemma 3 ออกแบบมาเพื่อลดการเติบโตของแคช KV
ความสามารถนอกเหนือจากการสร้างข้อความ
ที่สำคัญประสิทธิภาพเหล่านี้ไม่ปรากฏขึ้นเพื่อเสียสละฟังก์ชั่นหลัก ขึ้นอยู่กับ รายละเอียดรุ่น รุ่น Gemma 3 Qat ยังคงรักษาคุณสมบัติไว้จากรุ่นก่อน BF16 ของพวกเขารวมถึงความสามารถในการประมวลผลอินพุตภาพควบคู่ไปกับข้อความและรักษาหน้าต่างบริบท 128,000 Token ที่กว้างขวาง
ในระหว่างการโต้ตอบนานตามโมเดล รายงานทางเทคนิค การสนับสนุนภาษาในวงกว้างครอบคลุมมากกว่า 140 ภาษาตามรายงานก่อนหน้านี้คาดว่าจะดำเนินการผ่าน
การทำงานบนเครื่องของคุณเอง: ประสบการณ์และอุปสรรค
การลด VRAM เปิดประตู Simon Willison แบ่งปันประสบการณ์ในระยะแรกในเชิงบวกโดยใช้โมเดล QAT 27B ผ่าน ollama href=”https://huggingface.co/collections/mlx-community/gemma-3-Qat-68002674cd5afc6f90222a0ae”อย่างไรก็ตาม. เป็นเรื่องธรรมดากับรีลีสใหม่ผู้ใช้บางคนเริ่มแรก