Googleは、3月29日から無料のWebアプリを使用するすべての人がGemini 2.5 Pro(実験)モデルを静かに利用できるようにしました。この幅広い可用性は、モデルのより興味深い、最近強調された機能の1つを大衆視聴者にもたらします。PDF文書内のテキストだけでなく、視覚構造も理解するための明らかなコツです。フィリモノフ、保険申告管理に特化したAIスタートアップであるMatriskの共同設立者は、Gemini 2.5 Proが優れたPDF処理機能を提供することにより、以前の大手言語モデルからの逸脱を示唆しています。長いドキュメント内の情報を引用します。彼は、PDFページ画像内のテキスト抜粋の正確な場所(境界ボックス)を特定する能力について、ほぼ2年間テストモデルを説明しました。結果、彼はGemini 2.5 Proをテストするまで書いた。彼の内部評価では、モデルは、この特定のタスクで、予測された境界ボックスと実際のボックスのオーバーラップを測定するメトリックである組合(IOU)スコア(予測境界ボックスの重複を測定するメトリック)を達成し、ページの視覚的にテキストがどこにあるかを強く把握しています。 Filimonovは、これが「正確で視覚的なPDF引用…現実」になると結論付けました。 Geminiモデルは、「ネイティブビジョン」迅速なエンジニアリングサッカックの投稿のようなサードパーティの解説、特に、この「ネイティブPDFサポート」は、Privitive firting firsing firsing firsing firsing f>
これは、Gemini 2.5 Proがテストされたフィリモノフのような特定のタスクのレイアウトを理解することで有望である一方で、ドキュメント内のすべての空間クエリのピンポイント精度を達成することを示唆しています。開発は真空には存在しません。競合他社の人類は、そのクロード3.5ソネットモデルの「視覚的なPDF」機能を導入しました 2024年11月頃、主に有給ユーザーや異なる技術的制限を持つAPIを介して、ドキュメント内の混合コンテンツを分析できるようにします。より広い活動といくつかの精査。 Googleは、詳細な安全文書をリリースする前に、モデルを大幅に押し出しました。 4月16日頃に公開された最初の「モデルカード」は、民主主義技術センターのケビンバンクストンのようなAIガバナンススペシャリストから批判を引き出しました。これは、それを「貧弱」と呼び、「企業がモデルを市場に出すため、AIの安全性と透明性と透明性の厄介なストーリーを「底」」と心配しました。一般的に利用可能です。」この迅速な反復のコンテキストでは、4月18日にGemini 2.5 Flashのプレビューが発売されました。これは、4月9日に公開され、プロバージョンの高能力焦点とは異なる制御可能な推論を介して速度と費用効率を最適化したモデルです。 (Googleの3月25日の発表によると200万人が計画されています)、マルチモーダル推論(MMMUベンチマークで81.7%を獲得)と複雑な数学(AIME 2024で92.0%)の強力なパフォーマンスを含めています。
。 62.5%)および自律的なコーディング演習における人類のクロード3.7ソネット。これにより、Gemini 2.5 Proは、特にマルチモーダルおよびロングコンテストタスクで、特定の強度を持つ強力で多用途のモデルとして位置付けられていますが、そのパフォーマンスは、急速に進化するフィールドでのトップライバルに対して測定した場合の特定のアプリケーションドメインによって異なります。