Google ได้ก้าวไปสู่การทำให้โมเดล AI ที่มีความสามารถมากขึ้นทำงานได้บนฮาร์ดแวร์ในชีวิตประจำวันโดยการปล่อยตระกูล Gemma 3 รุ่นที่ได้รับการปรับให้เหมาะสมเป็นพิเศษ

รุ่นใช้การฝึกอบรมเชิงปริมาณ (QAT) ความต้องการ ผลลัพธ์หลักคือโมเดลที่มีความซับซ้อนรวมถึงตัวแปร Gemma 3 27B ขนาดใหญ่ตอนนี้สามารถทำงานบนการ์ดกราฟิกระดับผู้บริโภคที่ได้รับความนิยมย้ายออกจากโดเมนพิเศษของตัวเร่งความเร็วศูนย์ข้อมูลระดับสูง

Google ได้ส่งสัญญาณความตั้งใจ แผนดังกล่าวได้รับการรับรู้ด้วยการปล่อย QAT เหล่านี้

>

การเปิดตัวตามการเปิดตัวครั้งแรกของ Gemma 3 Series เมื่อวันที่ 12 มีนาคม การเปิดตัวนั้นเปิดตัวโมเดลที่ครอบคลุมถึง 1 พันล้านถึง 27 พันล้านพารามิเตอร์ชื่นชมประสิทธิภาพที่แข็งแกร่ง-โมเดล 27B ทำคะแนนได้ดีในการเปรียบเทียบเช่น LMSYS Chatbot Arena ซึ่งเป็นโมเดลการจัดอันดับระบบผ่านการตั้งค่าของมนุษย์-แต่การพึ่งพารูปแบบ BF16 ที่สำคัญ Smarts

เทคนิคสำคัญคือการฝึกอบรมเชิงปริมาณ (QAT) ซึ่งแตกต่างจากการบีบอัดแบบจำลองหลังจากการฝึกอบรมเสร็จสมบูรณ์ (การฝึกอบรมหลังการฝึกอบรมหรือ PTQ), QAT รวมข้อ จำกัด ของความแม่นยำเชิงตัวเลขที่ต่ำกว่าลงในลูปการฝึกอบรมเองโดยจำลองการดำเนินการเหล่านี้ในระหว่างกระบวนการ

Google ระบุว่าการเริ่มต้นของ บริษัท ลดคุณภาพการลดลงตามปกติอย่างมีนัยสำคัญที่เกี่ยวข้องกับการวัดปริมาณโดยอ้างถึงการลดลง 54% ในการลดลงของความงุนงง (การวัดว่าแบบจำลองทำนายข้อความได้ดีเพียงใด) สำหรับ“ Q4_0 [รูปแบบ] โดยใช้ Llama.cpp การประเมินความงุนงง” เมื่อเทียบกับวิธีมาตรฐาน

มันเป็นเทคนิคที่จัดตั้งขึ้นโดย Frameworks ที่สำคัญกว่านี้ พารามิเตอร์ รุ่น Gemma 3 27B เห็นว่าน้ำหนักของน้ำหนักลดลงจาก 54 GB (BF16) เป็น 14.1 GB (INT4).

การลดลงนี้หมายถึงรุ่น INT4 14.1 GB ตอนนี้เหมาะกับ 24GB VRAM ที่พบในการ์ด GB ใน 24GB เช่นเดียวกับแล็ปท็อป Nvidia RTX 4060), 4B จาก 8 GB ถึง 2.6 GB และ 1B ขนาดเล็กจาก 2 GB ถึง 0.5 GB ในขณะที่การออมเหล่านี้มีความสำคัญ

แหล่งที่มา: Google

Google เพิ่มอย่างรอบคอบในการประกาศ:“ ตัวเลขนี้แสดงถึง VRAM ที่จำเป็นในการโหลดน้ำหนักรุ่นเท่านั้นการใช้แบบจำลองยังต้องใช้ VRAM เพิ่มเติมสำหรับแคช KV ซึ่งเก็บข้อมูลเกี่ยวกับการสนทนาอย่างต่อเนื่องและขึ้นอยู่กับความยาวบริบท” การประหยัดหน่วยความจำที่ใช้ QAT นี้เติมเต็มประสิทธิภาพทางสถาปัตยกรรมที่มีอยู่ใน Gemma 3 ออกแบบมาเพื่อลดการเติบโตของแคช KV

ความสามารถนอกเหนือจากการสร้างข้อความ

ที่สำคัญประสิทธิภาพเหล่านี้ไม่ปรากฏขึ้นเพื่อเสียสละฟังก์ชั่นหลัก ขึ้นอยู่กับ รายละเอียดรุ่น รุ่น Gemma 3 Qat ยังคงรักษาคุณสมบัติไว้จากรุ่นก่อน BF16 ของพวกเขารวมถึงความสามารถในการประมวลผลอินพุตภาพควบคู่ไปกับข้อความและรักษาหน้าต่างบริบท 128,000 Token ที่กว้างขวาง

ในระหว่างการโต้ตอบนานตามโมเดล รายงานทางเทคนิค การสนับสนุนภาษาในวงกว้างครอบคลุมมากกว่า 140 ภาษาตามรายงานก่อนหน้านี้คาดว่าจะดำเนินการผ่าน

การทำงานบนเครื่องของคุณเอง: ประสบการณ์และอุปสรรค

การลด VRAM เปิดประตู Simon Willison แบ่งปันประสบการณ์ในระยะแรกในเชิงบวกโดยใช้โมเดล QAT 27B ผ่าน ollama href=”https://huggingface.co/collections/mlx-community/gemma-3-Qat-68002674cd5afc6f90222a0ae”อย่างไรก็ตาม. เป็นเรื่องธรรมดากับรีลีสใหม่ผู้ใช้บางคนเริ่มแรก

การสนับสนุนระบบนิเวศและความพร้อมใช้งาน

Google ได้สร้างแบบจำลอง INT4 และ Q4_0 QAT อย่างเป็นทางการผ่าน hugging face target=”_ blank”> kaggle ได้รับการฝึกฝนโดยใช้โครงสร้างพื้นฐาน TPU ภายใน (TPUV4P, V5P, V5E) สิ่งสำคัญคือพวกเขาได้รับการออกแบบมาเพื่อรวมเข้ากับเครื่องมือนักพัฒนายอดนิยม มีการสนับสนุนพื้นเมืองใน Ollama, lm studio , mlx (สำหรับ Apple Silicon) href=”https://www.kaggle.com/models/google/gemma-3/gemmacpp”target=”_ blank”> gemma.cpp (สำหรับการอนุมาน C ++ cpu) และ llama.cpp (ผ่านรูปแบบ GGUF) href=”https://ai.google.dev/gemma/gemmaverse”target=”_ blank”> gemmaverse ,”ที่ชุมชนผู้มีส่วนร่วมเช่น bartowski , ggml นำเสนอรุ่นที่มีปริมาณทางเลือก

การผลักดันประสิทธิภาพทั่วทั้งอุตสาหกรรม

การเปิดตัว Gemma 3 Qat มาท่ามกลางอุตสาหกรรมที่กว้างขึ้นในการทำให้โมเดล AI มีประสิทธิภาพและเข้าถึงได้มากขึ้น เพียงหนึ่งวันก่อนการประกาศของ Google Microsoft Research เปิดตัว Bitnet B1.58 2B4T.

Bitnet แสดงถึงกลยุทธ์ที่แตกต่างกันโดยใช้การฝึกอบรมพื้นเมืองที่ความแม่นยำ 1.58 บิตที่ต่ำมาก ในขณะที่ Microsoft อ้างว่าผลลัพธ์ที่น่าประทับใจการบรรลุเป้าหมายนั้นจำเป็นต้องใช้ c ++ เฟรมเวิร์ก (bitnet.cpp) สิ่งนี้ตรงกันข้ามกับวิธีการของ Google ในการใช้รูปแบบ INT4 มาตรฐานมากขึ้นและใช้ประโยชน์จากเครื่องมือที่มีอยู่และนำมาใช้อย่างกว้างขวางสำหรับการอนุมาน GPU ซึ่งอาจนำเสนอเส้นทางการใช้งานที่ง่ายขึ้นสำหรับนักพัฒนาที่มุ่งเน้นไปที่โมเดลการทำงานบนการ์ดกราฟิกผู้บริโภค

Categories: IT Info