Google zrobił krok w kierunku uczynienia swoich bardziej zdolnych modeli AI działających na codziennym sprzęcie, uwalniając specjalnie zoptymalizowane wersje jej rodziny Gemma 3.
Modele wykorzystują szkolenie kwantyzacyjne (QAT) i używa 4-bitowego precyzji całkowitej (INT4)-formatu numerycznego wykorzystującego tylko 4 bity na parametrów do parametru w stosunku do zwykłych typów BFLoat16 (BF16)-do dramatycznie shirfy) do dramatycznie shrinta). wymagania. Głównym rezultatem jest to, że wyrafinowane modele, w tym duży wariant Gemma 3 27b, mogą teraz działać na popularnych kartach graficznych na poziomie konsumenckim, wyprowadzając je z wyłącznej domeny akceleratorów akceleratorów danych o wysokiej klasy centrum danych.
Google sygnalizował zamiar oferowania kompresowanych wersji, obiecujące „zmniejszające wymagania i wymagania obliczeniowe”. Plan ten jest teraz realizowany z tymi zwolnieniami QAT.
Kluczową techniką jest trening kwantyzacyjny (QAT). W przeciwieństwie do samego kompresji modelu po zakończeniu treningu (kwantyzacja po szkoleniu lub PTQ), Qat integruje ograniczenia o niższej precyzji liczbowej bezpośrednio do samej pętli szkoleniowej, symulując te operacje podczas procesu. Stwierdził, że zastosowano QAT dla około 5000 kroków szkoleniowych, zasadniczo nauczanie modelu do wykonania dobrze przy użyciu niewielkiej liczby bitów na start. Znacząco zmniejszył zwykły spadek jakości związanej z kwantyzacją, powołując się na zmniejszenie spadku zakłopotania o 54% (miara tego, jak dobrze model przewiduje tekst) dla „Q4_0 [format] przy użyciu oceny zakłopotania LAMA.CPP” w porównaniu ze standardowymi metodami. Kat nie jest nowatorski; Jest to ustalona technika obsługiwana przez główne ramy , ale jej aplikacja daje praktyczne korzyści. Praktyczna korzyść to strateczna redukcja (pamięć wideo), aby utrzymać model Model GEMMA 3 27B odnotował spadek śladu wagowego z 54 GB (BF16) do 14,1 GB (INT4). Ta redukcja oznacza, że wersja INT4 o 14,1 GB pasuje teraz w 24 GB VRAM znalezionych na kartach, takich jak NVIDIA RTX 3090. Inne modele widziały podobne krople: 12b od 24 GB do 6,6 GB (odpowiednie dla 8GB VRAM w wersji 8GB w GPE. Podobnie jak laptop NVIDIA RTX 4060), 4B od 8 GB do 2,6 GB i mały 1b od 2 GB do 0,5 GB. Podczas gdy oszczędności są znaczące, Źródło: Google Google ostrożnie dodał w swoim ogłoszeniu: „Ta liczba reprezentuje tylko VRAM wymagany do załadowania wag modelu. Uruchomienie modelu wymaga również dodatkowego VRAM dla pamięci podręcznej KV, która przechowuje informacje o ciągłej rozmowie i zależy od długości kontekstu”. Pamięć KV przechowuje pamięć podręczną KV. To zapisywanie pamięci opartej na Katach uzupełnia istniejące wydajność architektoniczną w GEMMA 3 zaprojektowana w celu złagodzenia wzrostu pamięci podręcznej KV. Co ważne, te korzyści z wydajności nie wydają się poświęcać podstawowej funkcjonalności. Na podstawie Szczegóły modelu Modele KAT GEMMA 3 zachowują cechy od swoich poprzedników BF16, w tym możliwość przetwarzania wejść obrazu wraz z tekstem i utrzymywania obszernego okna kontekstu 128 000-tokenowego. Ta długa zdolność kontekstu jest wspierana przez wybory architektoniczne w podstawowym projekcie GEMMA 3, takie jak alternatywne okno z przesuwem. Pamięć podręczna KV podczas długich interakcji, zgodnie z modelu Raport techniczny . Oczekuje się również, że szerokie wsparcie językowe, obejmujące ponad 140 języków, według wcześniejszych raportów. Redukcje VRAM otwierają drzwi do uruchamiania tych modeli na szeroko zakrojonym sprzęcie. Simon Willison podzielił pozytywne wczesne doświadczenia, uruchamiając model KAT 27B za pośrednictwem mlx Na jego maszynie osobistej, znalezienie wersji MLX odczuwanej przez MLX Fust Faster, podczas gdy przy użyciu około 15 gb pamięci. integration nie był całkowicie całkowitą, nie był całkowitą, nie było całkowitą, nie było całkowitą całkowitą, nie było całkowitą całkowitą in. Jednakże. Jak to jest powszechne w przypadku nowych wydań, niektórzy użytkownicy początkowo
Ponadto członkami społeczności na platformach takich jak Reddit zaobserwowali, że oficjalne pliki GGUF (wspólny format modeli kwantyzowanych używanych przez narzędzia takie href=”https://www.reddit.com/r/localllama/comments/1jsq1so/smaller_gemma3_qat_versions_12b_in_8gb_and_27b_in/”target=”_ blank”> większy niż teoretycznie niezbędny Doświadczeni użytkownicy wykazali, że poprzez ręczne kwantyzację określonej tabeli, rozmiary plików mogą być dalej zmniejszone (dopasowanie 12b w poniżej 8 gb, 27b poniżej 16GB). choć nieoficjalne modyfikacje. Google udostępniło oficjalne modele INT4 i Q4_0 KAT za pośrednictwem przytulanie twarzy i kaggle , przeszkolony przy użyciu wewnętrznej infrastruktury TPU (TPUV4P, V5P, V5E). Co najważniejsze, są one zaprojektowane do integracji z popularnymi narzędziami programistów. Native wsparcie istnieje w Ollamie, LM studyko , mlx (dla Apple Silicon), własne Google gemma.cpp (dla C ++ CPU wnioskowania CPU) i lama.cpp (przez format GGUF). href=”https://ai.google.dev/gemma/gemmaverse”target=”_ blank”> gemmaverse , „Współpracownicy społeczności tacy ggml Oferuj alternatywne kwantyczne wersje, często przy użyciu metod PTQ, dostarczając deweloperów z większą liczbą wyborów w rozmiarze/prędkości/jakości. > Wydajność wydajności przez branżę
Wydanie Gemma 3 Qat odbywa się wśród szerszego branży na zwiększaniu wydajności i dostępności modeli AI. Zaledwie dzień przed ogłoszeniem Google Microsoft Research zaprezentował Bitnet B1.58 2B4T. Bitnet reprezentuje inną strategię, stosując szkolenia rodzime przy wyjątkowo niskiej precyzji 1,58-bitowej i przede wszystkim ukierunkowaniu na wydajność procesora. Podczas gdy Microsoft twierdzi, że imponujące wyniki, osiągnięcie ich wymaga użycia specjalistycznego C ++ Framework (bitnet.cpp) , ponieważ standardowe biblioteki nie są zoptymalizowane ze względu na unikalną matematykę. Kontrastuje to z podejściem Google polegającym na użyciu bardziej standardowego formatu INT4 i wykorzystaniu istniejących, powszechnie przyjętych narzędzi do wnioskowania GPU, potencjalnie oferując łatwiejszą ścieżkę adopcyjną dla programistów skupionych na uruchamianiu modeli na kartach graficznych konsumpcyjnych. Możliwości poza generowaniem tekstu
Bieganie na własnej maszynie: doświadczenia i przeszkody
Wsparcie i dostępność ekosystemu