Googleは、Gemma 3ファミリーの特別に最適化されたバージョンをリリースすることにより、日常のハードウェアでより有能なAIモデルを実行できるようにするための一歩を踏み出しました。

モデルは、量子化アウェアトレーニング(QAT)を使用し、4ビット整数精度(INT4)を使用します。彼らの記憶は要求します。主な結果は、大規模なGemma 3 27Bバリアントを含む洗練されたモデルが、人気のある消費者レベルのグラフィックカードで動作し、ハイエンドのデータセンターアクセラレータの排他的なドメインからそれらを移動できるようになりました。

Googleは、「モデルサイズと計算要件を維持しながら、「モデルサイズ」を約束しながら、圧縮バージョンを提供する意図を示していました。この計画は、これらのQATリリースで実現されました。

このリリースは、3月12日のGemma 3シリーズの最初のデビューに続きます。この発売により、10億から270億のパラメーターに及ぶモデルが導入され、強力なパフォーマンスが称賛されました。27Bモデルは、人間の好みを介してシステムランキングモデルであるLMSYSチャットボットアリーナのような比較でよくスコアを付けましたが、BF16形式への依存は、NVIDIAのH100のようなシステムを必要とすることが多いことを意味します。スマート

重要な手法は、量子化対象トレーニング(QAT)です。トレーニング後にモデルを単純に圧縮するのとは異なり(トレーニング後の量子化、またはPTQ)、QATはより低い数値精度の制約をトレーニングループ自体に直接統合し、プロセス中にこれらの操作をシミュレートしました。量子化に関連する品質の通常の品質の低下を大幅に軽減し、標準的な方法と比較して、「Q4_0 [フォーマット]を使用して「Q4_0 [形式]」の「Q4_0 [形式]」の「Q4_0 [形式]」の困惑の低下(モデルがテキストを予測する尺度の尺度)を著しく減らしました。 それは主要なフレームワークによってサポートされている確立された手法ですですが、ここでのアプリケーションは実用的な利益をもたらします。 Gemma 3 27Bモデルでは、重量のフットプリントが54 GB(BF16)から14.1 GB(INT4)に減少しました。 NVIDIA RTX 4060ラップトップ)と同様に)、8 GBから2.6 GBの4B、2 GBから0.5 GBの小さな1B。これらの節約は相当なものですが、

出典:出典: Google

Googleは発表で慎重に追加されました。「この数字は、モデルの重みをロードするために必要なVRAMのみを表します。モデルを実行するには、進行中の会話に関する情報を保存し、KVキャッシュがbase secuments as coldsed semathed octuned seconded aded eded cache ased cache ased cache ased cache ased cache ased cache ased cache ased cache ased cache ased cacheは、継続的な会話の長さに依存します。

このQATベースのメモリ保存は、KVキャッシュの成長を緩和するために設計されたGemma 3の既存のアーキテクチャ効率を補完します。 モデルの詳細、Gemma 3 QATモデルは、テキストと一緒に画像入力を処理し、広範な128,000トークンのコンテキストを維持する機能を含むBF16の前任者から機能を保持しています。モデルのテクニカルレポート。以前のレポートによると140を超える言語をカバーする広範な言語サポートも持ち越されると予想されています。

独自のマシンで実行されています。経験とハードル

VRAMの縮小は、広く所有されているハードウェアでこれらのモデルを実行するためのドアを開きます。 Simon Willisonは肯定的な初期の経験を共有し、27B QATモデルを ollama (約22GB RAMシステムを使用して)およびMLX on his personal machine, finding the MLX version felt faster while using about 15GB of memory.

Integration wasn’t entirely without bumps, しかし。新しいリリースによく見られるように、一部のユーザーは最初は

Ecosystem Support and Availability

Google has made the official int4 and Q4_0 QAT models available via hugging face and kaggle 、内部TPUインフラストラクチャ(TPUV4P、V5P、V5E)を使用して訓練されています。重要なことに、それらは人気のある開発者ツールと統合するために設計されています。オラマにはネイティブサポートが存在します。 href=”https://www.kaggle.com/models/google/gemma-3/gemmacpp”ターゲット=”_ blank”> gemma.cpp (c ++ cpu推論用)、およびllama.cpp(gguf形式を介して)。 href=”https://ai.google.dev/gemma/gemmaverse”ターゲット=”_ blank”> gemmaverse 、”href=”https://huggingface.co/bartowski/google_gemma-3-27b-it-gguf=”_ unsloth 、および ggml > 業界全体の効率的なプッシュ

Gemma 3 QATリリースは、AIモデルをより効率的かつアクセスしやすくすることに焦点を当てた業界の中にあります。 Googleの発表の直前に、Microsoft ResearchはBitnet B1.58 2B4Tを発表しました。 Microsoftは印象的な結果を主張していますが、それらを達成するには、専門化された c ++フレームワーク(bitnet.cpp)を使用する必要があります。これは、より標準のINT4形式を使用し、GPU推論のために既存の広く採用されているツールを活用するというGoogleのアプローチとは対照的であり、消費者グラフィックカードでモデルを実行することに焦点を当てた開発者に容易な採用パスを提供する可能性があります。

Categories: IT Info