Η Google έχει κάνει ένα βήμα προς την κατεύθυνση των πιο ικανών μοντέλων AI που μπορεί να διατεθεί στο καθημερινό υλικό, απελευθερώνοντας ειδικά βελτιστοποιημένες εκδόσεις της οικογένειας Gemma 3. απαιτήσεις. Το πρωταρχικό αποτέλεσμα είναι ότι τα εξελιγμένα μοντέλα, συμπεριλαμβανομένης της μεγάλης παραλλαγής Gemma 3 27B, μπορούν τώρα να λειτουργούν σε δημοφιλείς κάρτες γραφικών σε επίπεδο καταναλωτών, μεταφέροντας τις απαιτήσεις που διατηρώντας παράλληλα τη διατήρηση της υψηλής ακρίβειας. Το σχέδιο αυτό πραγματοποιείται τώρα με αυτές τις κυκλοφορίες του Κατάρ. Src=”Δεδομένα: Εικόνα/SVG+XML; NITRO-EMPTY-ID=MTY0OTOXMTE0-1, BASE64, PHN2ZYB2AWV3QM94PSIWIDAGMTAYNCA2NT Aiihdpzhropsixmdi0iibozwlnahq9ijy1mcigeg1sbnmm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Η έκδοση ακολουθεί το αρχικό ντεμπούτο της σειράς Gemma 3 στις 12 Μαρτίου. Αυτή η εκτόξευση εισήγαγε μοντέλα που καλύπτουν 1 δισεκατομμύρια έως 27 δισεκατομμύρια παραμέτρους, επαίνεσαν για ισχυρές επιδόσεις-το μοντέλο 27B σημείωσε καλά σε συγκρίσεις όπως το LMSYS chatbot Arena, ένα σύστημα κατάταξης συστήματος μέσω ανθρώπινων προτιμήσεων-αλλά η εξάρτησή τους από τη μορφή BF16 σήμαινε σημαντικές απαιτήσεις υλικού, που χρειάζονται συχνά συστήματα όπως το H100 του Nvidia. SMARTS
Η τεχνική κλειδιού είναι η κατάρτιση με γνώμονα την ποσοτικοποίηση (QAT). Σε αντίθεση με την απλή συμπίεση ενός μοντέλου μετά την ολοκλήρωση της εκπαίδευσης (μετά την κατάρτιση κβαντισμού ή PTQ), το QAT ενσωματώνει τους περιορισμούς της χαμηλότερης αριθμητικής ακρίβειας απευθείας στον ίδιο τον βρόχο κατάρτισης, προσομοιώνοντας αυτές τις λειτουργίες κατά τη διάρκεια της διαδικασίας. μείωσε σημαντικά τη συνηθισμένη πτώση της ποιότητας που σχετίζεται με την ποσοτικοποίηση, αναφέροντας μείωση κατά 54% της μείωσης της αμηχανίας (ένα μέτρο για το πόσο καλά ένα μοντέλο προβλέπει κείμενο) για το”Q4_0 [μορφή] χρησιμοποιώντας την αξιολόγηση του LLAMA.CPP”σε σύγκριση με τις τυπικές μεθόδους. είναι μια καθιερωμένη τεχνική που υποστηρίζεται από το Major Frameworks , αλλά η εφαρμογή του εδώ αποδίδει πρακτικά οφέλη. Παράμετροι. Το μοντέλο Gemma 3 27B είδε το αποτύπωμα βάρους του να μειώνεται από 54 GB (BF16) σε 14,1 GB (int4). GPU όπως ο φορητός υπολογιστής NVIDIA RTX 4060), 4Β από 8 GB έως 2,6 GB, και το μικροσκοπικό 1Β από 2 GB σε 0,5 GB. Ενώ αυτές οι αποταμιεύσεις είναι σημαντικές,
Πηγή: Η Google
προστέθηκε με σύνεση της ανακοίνωσης:”Ο αριθμός αυτός αντιπροσωπεύει μόνο το VRAM που απαιτείται για να φορτώσει τα βάρη μοντέλου. Η εκτέλεση του μοντέλου απαιτεί επίσης πρόσθετη VRAM για την προσωρινή μνήμη KV, οι οποίες αποθηκεύουν πληροφορίες σχετικά με τη συνεχιζόμενη συζήτηση και εξαρτάται από το μήκος του περιβάλλοντος”. Αυτή η εξοικονόμηση μνήμης που βασίζεται στο Κατάρ συμπληρώνει τις υπάρχουσες αρχιτεκτονικές αποτελεσματικότητες στο Gemma 3 που σχεδιάστηκε για να μετριάσει την ανάπτυξη της προσωρινής μνήμης KV. Με βάση το <α href="https://vertexaisearch.cloud.google.com/grounding-api-redirect/awqvqajnu-kbntcit2n4siwbwb-ike6vlvmvv_cxdvyucic TTYP7HYQ2TTDR9MPJBQNUTZMZRDJ99PSUMPYQOILKCMY2FJ53TG63_WT1YR_NFFPFSTJYBERYEAQEPMAP5BY97EXU2FSGGTWYU3OEDOG4T66-UM6XQ=="Τα μοντέλα Gemma 3 QAT διατηρούν χαρακτηριστικά από τους προκατόχους τους BF16, συμπεριλαμβανομένης της δυνατότητας επεξεργασίας των εισροών εικόνων παράλληλα με το κείμενο και τη διατήρηση του εκτεταμένου παραθύρου της προσοχής των 128.000. Kv cache κατά τη διάρκεια μεγάλων αλληλεπιδράσεων, σύμφωνα με το μοντέλο Τεχνική αναφορά . Η υποστήριξη ευρείας γλώσσας, που καλύπτει πάνω από 140 γλώσσες σύμφωνα με προηγούμενες αναφορές, αναμένεται επίσης να μεταφέρει. Ο Simon Willison μοιράστηκε θετικές πρώιμες εμπειρίες, τρέχοντας το μοντέλο 27B QAT μέσω ollama href=”https://huggingface.co/collections/mlx-community/gemma-3-qat-68002674cd5afc6f9022a0ae”target=”_ blank”> mlx Στην προσωπική του μηχανή, η εύρεση της έκδοσης MLX, ενώ δεν χρησιμοποιούσε περίπου 15gb μνήμης. Ωστόσο, τα χτυπήματα. Όπως συμβαίνει με τις νέες κυκλοφορίες, ορισμένοι χρήστες αρχικά Hugging Face Target=”_ Blank”> Kaggle , εκπαιδευμένο χρησιμοποιώντας την εσωτερική υποδομή TPU (TPUV4P, V5P, V5E). Βασικά, έχουν σχεδιαστεί για ενσωμάτωση με δημοφιλή εργαλεία προγραμματιστή. Η εγγενή υποστήριξη υπάρχει στο Ollama, lm studio , MLX (για το Apple Silicon) href=”https://www.kaggle.com/models/google/gemma-3/gemmacpp”target=”_ blank”> gemma.cpp href=”https://ai.google.dev/gemma/gemmaverse” target=”_blank”>Gemmaverse,”where community contributors like Bartowski, unsloth και ggml > Η απόδοση προωθεί τη βιομηχανία
Η απελευθέρωση Gemma 3 QAT έρχεται μέσα σε μια ευρύτερη εστίαση της βιομηχανίας στην κατασκευή των μοντέλων AI πιο αποτελεσματικά και προσβάσιμα. Μόλις την ημέρα πριν από την ανακοίνωση της Google, η Microsoft Research παρουσίασε το Bitnet B1.58 2B4T. Το Bitnet αντιπροσωπεύει μια διαφορετική στρατηγική, χρησιμοποιώντας την εγγενή εκπαίδευση σε εξαιρετικά χαμηλή ακρίβεια 1,58-bit και κατά κύριο λόγο με στόχο την απόδοση της CPU. Ενώ η Microsoft ισχυρίζεται ότι τα εντυπωσιακά αποτελέσματα, η επίτευξή τους απαιτεί χρησιμοποιώντας ένα εξειδικευμένο c ++ πλαίσιο (bitnet.cpp) , καθώς οι τυπικές βιβλιοθήκες δεν είναι βελτιστοποιημένες για τα μοναδικά μαθηματικά του. Αυτό έρχεται σε αντίθεση με την προσέγγιση της Google για τη χρήση της πιο τυπικής μορφής Int4 και την αξιοποίηση των υφιστάμενων, ευρέως υιοθετημένων εργαλείων για συμπεράσματα GPU, προσφέροντας ενδεχομένως μια ευκολότερη πορεία υιοθεσίας για τους προγραμματιστές που επικεντρώνονται στην εκτέλεση μοντέλων σε κάρτες γραφικών καταναλωτών.