Googleは、強力なマルチモーダル機能を消費者デバイスに直接提供するように設計された新世代のオープンソース人工知能モデルであるGemma 3Nを完全にリリースしました。高度なAIを民主化するための重要な動きで、これらのモデルは画像、オーディオ、ビデオ入力を処理してテキストを生成し、わずか2GBのメモリでハードウェアで操作し、クラウドから複雑なAIを効果的に解除することができます。 href=”https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/”target=”_ blank”>公式開発者ガイドは、Googleのより大きなGeminiシステムとは対照的なモデルの「モバイルファースト」ファミリーを紹介します。新しいモデルには、E2BとE4Bの2つのメインサイズがあり、アーキテクチャの革新を使用して、はるかに小さなモデルに匹敵するメモリフットプリントで実行されます。この効率のブレークスルーにより、開発者は、スマートフォンからラップトップまで、幅広い日常のハードウェアに洗練されたオフライン対応のAIアプリケーションを構築および展開できるようになりました。完全なリリースは、Googleのプッシュを強化し、以前は大規模なデータセンターのドメインであったツールで開発者コミュニティに力を与え、最先端のAIで構築できる根本的に変化します。アクセシビリティのアーキテクチャ
ジェマ3Nの効率の中心にあるのは、デバイス上のパフォーマンスのためにゼロから設計された新しいアーキテクチャです。 Googleは、 matformer、またはmatryoshkaトランス、アーキテクチャと呼ばれるものを紹介しています。これにより、開発者は特定のハードウェアの制約に合わせたモデルサイズのスペクトルを展開できます。Googleはa matformer lab 最適な構成を助けて、P>
(PLE)。このイノベーションにより、モデルのパラメーターの大部分をデバイスのメインCPUで処理し、高速アクセラレータメモリ(VRAM)の量を大幅に削減できます。アーキテクチャはKVキャッシュ共有も使用しています。これは、初期処理の速度を2倍にすると主張しています。この生態系戦略は、AI開発に対する同社の二重延長アプローチの中心的な部分であると思われます。 a venturebeatインタビュー> GoogleプロダクトマネージャーPriya Singhとの閉じたモデルとの閉じたモデルと見なされます。 GoogleはGemmaとGeminiを競合他社とは見ていません。同じコインの2つの側面です。同社は、開発者がGEMMAで構築するものを分析して、フロンティアリサーチの次の場所を特定します。これらには、以前のGemma 2アーキテクチャに基づいて構築された創薬のためのツールのスイートであるTXGEMMAと、高度に専門化されたイルフィンゲンマが含まれます。後者は、数十年にわたるイルカの録音を分析するためのワイルドイルカプロジェクトとのユニークなコラボレーションであり、動物コミュニケーションのパターンを見つけようとします。これは、AIアプリケーションの境界を押し広げるタスクです。その即時の使いやすさ。独立した開発者であるサイモン・ウィリソンは、リリースの包括的な性質を称賛し、「ジェマ3Nは、あらゆるモデルで見た中で最も包括的な初日の発売でもある」と呼んでいます。ハンズオンテストでは彼のブログで詳述されているでは、ウィリソンは、OllamaやMLXのような人気のあるツールからの広範な1日のサポートを強調しました。彼はオーディオ転写のためにモデルの1つのバージョンを正常に使用していましたが、モデルが生成した画像を正しく説明することに失敗したため、この種のコミュニティエンゲージメントをさらに促すために、Googleはさらに拍車をかけました。 Target=”_ blank”> gemma 3n Impact Challenge 、新しいモデルを使用して社会的利益のために製品を構築する開発者の賞金150,000ドルの競争。モデルは、ユニバーサルスピーチモデル(USM)に基づいた高度なオーディオエンコーダーを備えています。効率とパワーは、リーダーボードで印象的な結果をもたらしました。より大きなGemma 3N E4Bバリアントは、1300を超えるLmarenaスコアを達成するための100億パラメーターの最初のモデルです。これは、人間の好みに基づいたパフォーマンスを測定するベンチマークです。
毎日使用するデバイスで生きることができる強力なマルチモーダルモデルをエンジニアリングすることにより、Googleは新しいツールをリリースするだけでなく、明確な声明を発表しています。この動きは、最先端のAIがクラウドのみに存在しなければならないという概念に挑戦し、開発者の新しい波を強化して、次世代のインテリジェントでプライベートでアクセス可能なアプリケーションを構築する。