Google เปิดตัว Gemma 3 Qat AI รุ่นสำหรับ GPU ผู้บริโภค

Google ได้ก้าวไปสู่การทำให้โมเดล AI ที่มีความสามารถมากขึ้นทำงานได้บนฮาร์ดแวร์ในชีวิตประจำวันโดยการปล่อยตระกูล Gemma 3 รุ่นที่ได้รับการปรับให้เหมาะสมเป็นพิเศษ

รุ่นใช้การฝึกอบรมเชิงปริมาณ (QAT) ความต้องการ ผลลัพธ์หลักคือโมเดลที่มีความซับซ้อนรวมถึงตัวแปร Gemma 3 27B ขนาดใหญ่ตอนนี้สามารถทำงานบนการ์ดกราฟิกระดับผู้บริโภคที่ได้รับความนิยมย้ายออกจากโดเมนพิเศษของตัวเร่งความเร็วศูนย์ข้อมูลระดับสูง

Google ได้ส่งสัญญาณความตั้งใจ แผนดังกล่าวได้รับการรับรู้ด้วยการปล่อย QAT เหล่านี้

การเปิดตัวตามการเปิดตัวครั้งแรกของ Gemma 3 Series เมื่อวันที่ 12 มีนาคม การเปิดตัวนั้นเปิดตัวโมเดลที่ครอบคลุมถึง 1 พันล้านถึง 27 พันล้านพารามิเตอร์ชื่นชมประสิทธิภาพที่แข็งแกร่ง-โมเดล 27B ทำคะแนนได้ดีในการเปรียบเทียบเช่น LMSYS Chatbot Arena ซึ่งเป็นโมเดลการจัดอันดับระบบผ่านการตั้งค่าของมนุษย์-แต่การพึ่งพารูปแบบ BF16 ที่สำคัญ Smarts

เทคนิคสำคัญคือการฝึกอบรมเชิงปริมาณ (QAT) ซึ่งแตกต่างจากการบีบอัดแบบจำลองหลังจากการฝึกอบรมเสร็จสมบูรณ์ (การฝึกอบรมหลังการฝึกอบรมหรือ PTQ), QAT รวมข้อ จำกัด ของความแม่นยำเชิงตัวเลขที่ต่ำกว่าลงในลูปการฝึกอบรมเองโดยจำลองการดำเนินการเหล่านี้ในระหว่างกระบวนการ

Google ระบุว่าการเริ่มต้นของ บริษัท ลดคุณภาพการลดลงตามปกติอย่างมีนัยสำคัญที่เกี่ยวข้องกับการวัดปริมาณโดยอ้างถึงการลดลง 54% ในการลดลงของความงุนงง (การวัดว่าแบบจำลองทำนายข้อความได้ดีเพียงใด) สำหรับ“ Q4_0 [รูปแบบ] โดยใช้ Llama.cpp การประเมินความงุนงง” เมื่อเทียบกับวิธีมาตรฐาน

มันเป็นเทคนิคที่จัดตั้งขึ้นโดย Frameworks ที่สำคัญกว่านี้ พารามิเตอร์ รุ่น Gemma 3 27B เห็นว่าน้ำหนักของน้ำหนักลดลงจาก 54 GB (BF16) เป็น 14.1 GB (INT4).

การลดลงนี้หมายถึงรุ่น INT4 14.1 GB ตอนนี้เหมาะกับ 24GB VRAM ที่พบในการ์ด GB ใน 24GB เช่นเดียวกับแล็ปท็อป Nvidia RTX 4060), 4B จาก 8 GB ถึง 2.6 GB และ 1B ขนาดเล็กจาก 2 GB ถึง 0.5 GB ในขณะที่การออมเหล่านี้มีความสำคัญ

แหล่งที่มา: Google

Google เพิ่มอย่างรอบคอบในการประกาศ:“ ตัวเลขนี้แสดงถึง VRAM ที่จำเป็นในการโหลดน้ำหนักรุ่นเท่านั้นการใช้แบบจำลองยังต้องใช้ VRAM เพิ่มเติมสำหรับแคช KV ซึ่งเก็บข้อมูลเกี่ยวกับการสนทนาอย่างต่อเนื่องและขึ้นอยู่กับความยาวบริบท” การประหยัดหน่วยความจำที่ใช้ QAT นี้เติมเต็มประสิทธิภาพทางสถาปัตยกรรมที่มีอยู่ใน Gemma 3 ออกแบบมาเพื่อลดการเติบโตของแคช KV

ความสามารถนอกเหนือจากการสร้างข้อความ

ที่สำคัญประสิทธิภาพเหล่านี้ไม่ปรากฏขึ้นเพื่อเสียสละฟังก์ชั่นหลัก ขึ้นอยู่กับ รายละเอียดรุ่น รุ่น Gemma 3 Qat ยังคงรักษาคุณสมบัติไว้จากรุ่นก่อน BF16 ของพวกเขารวมถึงความสามารถในการประมวลผลอินพุตภาพควบคู่ไปกับข้อความและรักษาหน้าต่างบริบท 128,000 Token ที่กว้างขวาง

ในระหว่างการโต้ตอบนานตามโมเดล รายงานทางเทคนิค การสนับสนุนภาษาในวงกว้างครอบคลุมมากกว่า 140 ภาษาตามรายงานก่อนหน้านี้คาดว่าจะดำเนินการผ่าน

การทำงานบนเครื่องของคุณเอง: ประสบการณ์และอุปสรรค

การลด VRAM เปิดประตู Simon Willison แบ่งปันประสบการณ์ในระยะแรกในเชิงบวกโดยใช้โมเดล QAT 27B ผ่าน ollama href=”https://huggingface.co/collections/mlx-community/gemma-3-Qat-68002674cd5afc6f90222a0ae”อย่างไรก็ตาม. เป็นเรื่องธรรมดากับรีลีสใหม่ผู้ใช้บางคนเริ่มแรก

Google ได้สร้างแบบจำลอง INT4 และ Q4_0 QAT อย่างเป็นทางการผ่าน hugging face target=”_ blank”> kaggle ได้รับการฝึกฝนโดยใช้โครงสร้างพื้นฐาน TPU ภายใน (TPUV4P, V5P, V5E) สิ่งสำคัญคือพวกเขาได้รับการออกแบบมาเพื่อรวมเข้ากับเครื่องมือนักพัฒนายอดนิยม มีการสนับสนุนพื้นเมืองใน Ollama, lm studio , mlx (สำหรับ Apple Silicon) href=”https://www.kaggle.com/models/google/gemma-3/gemmacpp”target=”_ blank”> gemma.cpp (สำหรับการอนุมาน C ++ cpu) และ llama.cpp (ผ่านรูปแบบ GGUF) href=”https://ai.google.dev/gemma/gemmaverse”target=”_ blank”> gemmaverse ,”ที่ชุมชนผู้มีส่วนร่วมเช่น bartowski , ggml นำเสนอรุ่นที่มีปริมาณทางเลือก

การผลักดันประสิทธิภาพทั่วทั้งอุตสาหกรรม

การเปิดตัว Gemma 3 Qat มาท่ามกลางอุตสาหกรรมที่กว้างขึ้นในการทำให้โมเดล AI มีประสิทธิภาพและเข้าถึงได้มากขึ้น เพียงหนึ่งวันก่อนการประกาศของ Google Microsoft Research เปิดตัว Bitnet B1.58 2B4T.

Bitnet แสดงถึงกลยุทธ์ที่แตกต่างกันโดยใช้การฝึกอบรมพื้นเมืองที่ความแม่นยำ 1.58 บิตที่ต่ำมาก ในขณะที่ Microsoft อ้างว่าผลลัพธ์ที่น่าประทับใจการบรรลุเป้าหมายนั้นจำเป็นต้องใช้ c ++ เฟรมเวิร์ก (bitnet.cpp) สิ่งนี้ตรงกันข้ามกับวิธีการของ Google ในการใช้รูปแบบ INT4 มาตรฐานมากขึ้นและใช้ประโยชน์จากเครื่องมือที่มีอยู่และนำมาใช้อย่างกว้างขวางสำหรับการอนุมาน GPU ซึ่งอาจนำเสนอเส้นทางการใช้งานที่ง่ายขึ้นสำหรับนักพัฒนาที่มุ่งเน้นไปที่โมเดลการทำงานบนการ์ดกราฟิกผู้บริโภค

Google เปิดตัว Gemma 3 Qat AI รุ่นสำหรับ GPU ผู้บริโภค

Published by All Things Windows on April 20, 2025

ความสามารถนอกเหนือจากการสร้างข้อความ

การทำงานบนเครื่องของคุณเอง: ประสบการณ์และอุปสรรค

การสนับสนุนระบบนิเวศและความพร้อมใช้งาน

การผลักดันประสิทธิภาพทั่วทั้งอุตสาหกรรม

IT Info

โหมดเดสก์ท็อป Native Native ของ Google และคู่แข่ง Samsung Dex เป็นรูปเป็นร่าง

IT Info

วิธีเปลี่ยนวันแรกของสัปดาห์ในปฏิทิน Windows 11

IT Info

Jeff Bezos วางแผนที่จะขายหุ้น Amazon มูลค่า 4.75 พันล้านดอลลาร์ในขณะที่ บริษัท นำทางภาษีและภาษี

Google เปิดตัว Gemma 3 Qat AI รุ่นสำหรับ GPU ผู้บริโภค

Published by All Things Windows on April 20, 2025

ความสามารถนอกเหนือจากการสร้างข้อความ

การทำงานบนเครื่องของคุณเอง: ประสบการณ์และอุปสรรค

การสนับสนุนระบบนิเวศและความพร้อมใช้งาน

การผลักดันประสิทธิภาพทั่วทั้งอุตสาหกรรม

Related Posts

IT Info

โหมดเดสก์ท็อป Native Native ของ Google และคู่แข่ง Samsung Dex เป็นรูปเป็นร่าง

IT Info

วิธีเปลี่ยนวันแรกของสัปดาห์ในปฏิทิน Windows 11

IT Info

Jeff Bezos วางแผนที่จะขายหุ้น Amazon มูลค่า 4.75 พันล้านดอลลาร์ในขณะที่ บริษัท นำทางภาษีและภาษี