Alphabet CEO の Sundar Pichai 氏は、Google の Gemini 1.5 Pro モデルに 200 万トークンの拡張されたコンテキスト ウィンドウが搭載されることを発表しました。 、以前の容量を2倍にします。 Google I/O 2024 開発者カンファレンスで明らかにされたこのアップデートは、Google の大規模言語モデル (LLM) のパフォーマンスを強化することを目的としています。

データ分析と理解の強化

コンテキスト ウィンドウの 100 万トークンから 200 万トークンへの拡張により、より大きなデータ セットを分析および理解するモデルの能力が向上すると予想されます。単語のセグメントであるトークンは、LLM が言語を処理および生成する方法において重要な役割を果たします。各トークンは英語の 4 文字で構成されており、容量の増加により、モデルはより包括的なデータ入出力を処理できるようになります。

Google は「無限のコンテキスト」を目指す

トークンは、分析や応答生成のために単語をより小さな単位に分割するため、LLM にとって不可欠です。コンテキスト ウィンドウは、AI モデルが記憶して利用できるデータの量を決定し、このウィンドウ内のトークンの数を増やすことで、より多くのデータを保存できるようになります。詳細かつ正確な AI 応答。

Pichai 氏は、LLM が無制限の量のデータを処理および出力できる「無限のコンテキスト」を実現するという将来の目標についても言及しました。ただし、この目標は現在、計算能力によって制限されています。 Google の調査では、これまでのところ 1,000 万トークンのコンテキスト ウィンドウを達成しており、これらの境界を押し広げるための継続的な取り組みが示されています。

[埋め込みコンテンツ]

Gemini 1.5 Pro の高度な機能

Google によると、Gemini 1.5 Pro は、1 時間のビデオ、11 時間のオーディオ、30,000 行以上のコードベース、または 700,000 ワード以上のコードベースを含む膨大な量の情報を一度に処理できます。このモデルは、アポロ 11 号の月へのミッションからの 402 ページの記録など、特定のプロンプト内の大量のコンテンツをシームレスに分析、分類、要約できます。

Google はまた、このモデルは非常に高いパフォーマンスを発揮できると述べています。ビデオなどのさまざまなモダリティに対する高度な理解と推論のタスクを習得し、44 分間のバスター キートンのサイレント映画のさまざまなプロット ポイントやイベントを正確に分析できます。さらに、Gemini 1.5 Pro は、サンプル全体にわたる推論、役立つ変更の提案、コードのさまざまな部分の動作の説明など、より長いコード ブロックにわたってより関連性の高い問題解決タスクを実行できます。

Gemini 1.5 Pro には、また、「コンテキスト内学習」スキルも向上しました。これは、追加の微調整を必要とせずに、長いプロンプトで提供される情報から新しいスキルを学習できることを意味します。

[埋め込みコンテンツ]

>パフォーマンスと評価

Gemini 1.5 Pro は、大規模言語モデル (LLM) の開発に使用されるベンチマークの 87% で 1.0 Pro を上回り、同じベンチマークでは 1.0 Ultra とほぼ同様のレベルでパフォーマンスを示します。 Needle In A Haystack (NIAH) の評価では、1.5 Pro は 100 万トークンに及ぶデータ ブロック内で埋め込みテキストを 99% の確率で発見しました。

Google は広範な倫理と安全性を実施したと述べています。コンテンツの安全性や表現上の危害などの分野にわたる評価を含む、Gemini 1.5 Pro のテスト。

プライベート プレビューと開発者アクセス

現在、限定されたグループで開始されます。の開発者と企業顧客が、プライベート プレビューで AI Studio と Vertex AI を介して最大 100 万トークンのコンテキスト ウィンドウを備えた Gemini 1.5 Pro を試すことができます。この段階的なロールアウトにより、開発者は拡張モデルが広くアクセス可能になる前に、拡張モデルをテストしてフィードバックを提供できるようになります。

Categories: IT Info