Microsoftの研究者は、 bitnet b1.58 2b4t 、極度の低い言語モデルの操業を伴うオープンソース大規模モデルのオペレーティングでのビットネットB1.58 2b4t でAIアリーナに新しい競争相手を配置しました。この20億パラメーターモデルを際立たせるのは、トレーニング後に量子化されるのではなく、1.58ビットアーキテクチャを使用してネイティブにトレーニングされたことです。計算需要。
コアクレームは、効率を中心に展開します。多くのLLMは多額のハードウェアを必要としますが、Microsoftは、4兆トークンで訓練されたBitnet B1.58 2B4Tが標準のCPUでも効果的に動作できることを提案しています。彼らのテクニカルレポートは、わずか0.4GBの非編成メモリフットプリントを強調しています。これは、競合他社の1.4GB(GEMMA-3 1B)から4.8GB(MinicPM 2B)の範囲の数値とは対照的です。 src=”https://winbuzzer.com/wp-content/uploads/2025/02/microsoft-bounty-bounty-cybersecurity-ai-research.jpg”>
テストハードウェア(Intel Core i7-13800H)で特殊なフレームワークを使用して実行する場合、CPUデコードレイテンシ(トークンごとに29ミリ秒)を使用した場合、より速いと主張します(Intel Core i7-13800H)。そのアーキテクチャは、トレーニング中に積極的な量子化を採用するカスタムビットリニア層の標準線形層を交換します。典型的な16ビット番号の代わりに、モデルの重みは、フォワードパス中に3つの可能な値の3つの値に制約されます:-1、0、または+1。この「ネイティブ1ビット」トレーニングアプローチでは、Microsoftは元のビットネットペーパーで提示された研究に基づいて主張し、訓練を受けた後(トレーニング後の量子化、またはPTQ)(
)層の間に通過した値(活性化)を使用してabsmax”bit”bit”bit”bit”bit bit”bit bit in fiented fiented fiell smutiation of”bit integers”bit integers”bit integers”bit bit integers”bit-bitに依存しています。 W1.58A8(1.58ビットの重み、8ビットの活性化)。モデルアーキテクチャは変圧器ベースですが、この低ビットレジームに適した特定の調整を組み込んでいます。四角レリュー(Relu²)活性化機能を使用して、Swigluを置き換え、ポジショナルデータに標準回転位置埋め込み(ロープ)を使用し、SUBLN正規化(量子化トレーニングの安定性の利点のために引用)を使用し、レイヤーの存在用語を使用します。トークン化は、llama 3トークンザーに依存しています。
トレーニングとパフォーマンスの請求
ビットネットB1.58 2B4Tの開発には、3つのトレーニング段階が含まれていました。最初のトレーニング前には、4兆階建てのデータセット、Webデータ、コード、および合成数学の組み合わせが含まれており、テーラード2段階学習率と体重減衰計画を使用しています。最後に、直接選好最適化(DPO)-別の報酬モデルを必要とせずに優先順位アラインメントの方法-は、Ultrafeedbackを含むデータセットを使用して会話能力と安全性プロファイルを改善しました。
マイクロソフトの評価。伝えられるところによれば、GSM8K(Math)、Piqa(Physical Commonsense)、Winogrande(Commonsense)などの特定のベンチマークでより強力な結果を示していますが、レポートによると、「私たちの結果は、Bitnet B1.58 2B4Tが、Open-Weightを含むPARを含むPARを含むPARを含むPARを含むPARを含むPARを含むPARを含むPARを含むPARを含むBitnet B1.58 2B4Tが、BiTNET B1.58 2B4TがPARを提供することを示しています。メモリフットプリント、エネルギー消費、デコードレイテンシを大幅に削減しました。」また、標準のINT4 PTQメソッドにさらされたモデルと比較して優れたパフォーマンスを主張しています。抱きしめるフェイスモデルカードには顕著な警告があります。「このモデルを標準的なトランスライブラリで使用する場合、パフォーマンス効率の向上(速度、潜時、またはエネルギー消費の点で)を期待しないでください。技術用紙で実証された効率の利点を達成するには、専用のC ++実装を使用する必要があります:bitnet.cpp。 Math Bitnetが雇用しています。効率を実現するには、Microsoftの専用のオープンソースの推論フレームワークを使用する必要があります。
cpusの場合、 llama.cpp )は、ルックアップテーブルメソッド(関連用紙に記載)を使用して報告されたゲインを提供し、1.37xと6.17xの間のスピードアップを55%から82%のエネルギー削減に比べて82%エネルギー削減を主張します(サイズ。
GPUの場合、カスタムCUDAカーネルが必要であり、計算用の重量の梱包と開梱が含まれます。現在のGPUを認めるステップは、このタイプのモデルには理想的ではありません。これらのカスタムソリューションが、多様なハードウェアセットアップ全体でパフォーマンスと安定性を維持するかどうかには、より広範なコミュニティテストが必要です。 Microsoftは、bitnet.cpp。
context
bitnet.cpp。内でのNPUの将来のサポートとGPU処理の改善を計画しています。 href=”https://huggingface.co/microsoft/bitnet-b1.58-2b-4t/blob/main/license”ターゲット=”_ blank”> mitライセンス。ユーザーは、効率的な推論のためにパックされた1.58ビットの重みを見つけることができます。 href=”https://huggingface.co/microsoft/bitnet-b1.58-2b-4t-gguf”ターゲット=”_ blank”> ggufフォーマット bitnet.cpp。このモデルは、4096トークンのコンテキストウィンドウで動作します。 href=”https://aka.ms/generalai”ターゲット=”_blank”> https://aka.ms/generalai 。 Microsoftの研究者は、より大きなビットネットモデルのトレーニング、ハードウェアの共同設計の探索、コンテキストの長さの拡張、多言語機能の追加など、将来の計画を概説しました。