Googleには gemini 2.5コンピューター使用モデルのGemini 2.5コンピューター使用モデルの開発者を発表しました。ツールは Google AI Studioを介して開発者が利用可能 および頂点ai 。このテクノロジーにより、AIは画面に表示されているものを確認し、[Webサイトをクリック、入力、ナビゲートして複雑なデジタル雑用を自動化できます。それは、ユーザーに代わって積極的に作業を完了することができるアシスタントを作成し、真に自律AIエージェントを構築するためにレースをエスカレートすることを目指しています。 src=”data:image/svg+xml; nitro-empty-id=mty2mdo5mjc=-1; base64、phn2zyb2 awv3qm94psiwidagmtawmca0md qiihdpzhropsixmdawiibozwlnahq9ijqwncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
ジェミニがクリック、タイプ、およびスクロールする方法を学習する方法
のコアでは、Gemini 2.5コンピューターの使用モデルは、Googleのドキュメントがループ。
テキストを生成するだけでなく、AIの目標はアクションを作成することです。プロセスは、開発者が初期リクエストを送信するときに始まります。これには、ユーザーのハイレベルの目標、現在の環境のスクリーンショット、最近のアクションの履歴が含まれます。次に、応答を生成します。通常は、「function_call」と呼ばれる構造化されたコマンドです。これは、座標をクリックしたり、テキストをフィールドに入力するなどの特定のUIアクションを表します。開発者自身のクライアント側のコードは、「function_call」を受信し、Webブラウザーなどのターゲット環境で実際のコマンドに変換する責任があります。このモデルは主にブラウザ向けに最適化されていますが、GoogleによるとモバイルUIコントロールの可能性も示しています。
アクションが実行された後、クライアントアプリケーションは新しいスクリーンショットと現在のURLをキャプチャします。この新しい状態は、ループを再起動する「function_response」としてコンピューター使用モデルに送り返されます。この反復プロセスにより、エージェントは最後のアクションの結果を評価し、次の論理的ステップを決定し、次の論理ステップを除くユーザーのタスクを超えて、
その機能には、特定のURLへのナビゲート、検索バーの使用、スクロール、カーソルのホバリングのメニュー、さらにはドラッグアンドドロップ操作の実行も含まれ、Webベースのワークフローを自動化するための汎用性の高いツールキットを提供します。すでに競争の激しい分野を加熱し、ハイテク大手のレースをエスカレートして有能な「エージェントAI」を開発します。人類は初期の発動者であり、2024年10月にClaude 3.5 Sonnetモデルに「コンピューター使用」機能を導入しました。 2025年1月に最初の「オペレーター」エージェントを導入した後、同社は2025年7月にはるかに強力なChatGPTエージェントを立ち上げました。Googleのブラウザーのみのモデルとは異なり、ChatGPTエージェントは「仮想コンピューター」を運営し、ブラウザと一緒にコード実行のための端末にアクセスできます。 Microsoft VPの1つとして、Charles Lamannaは業界の究極の目標を簡潔に獲得しました。「人がアプリを使用できる場合、エージェントもできます。」
Gemini 2.5コンピューター使用モデルは新しい公開リリースですが、Googleの長期にわたる内部研究に基づいています。このテクノロジーのバージョンは、研究プロジェクトのマリナーや検索中のAIモード内のエージェント機能などの内部ツールをすでに動作させており、実験から開発者向け製品への明確なパスを実証しています。 href=”https://blog.google/technology/google-deepmind/gemini-computer-use-model/”target=”_ blank”>は、いくつかのWebおよびモバイルコントロールのベンチマークで主要な代替案を上回りますオンラインMIND2WEBおよびANDROIDWORLDを含む、低レテンシーを維持します。 Early Access Partnersはこれらのパフォーマンスの主張を反映しています。複雑な場合のコンテキスト、私たちの最も困難な回避でパフォーマンスを最大18%増加させる。」
これらのエージェントの現実世界の有効性に関する質問は持続します。この懐疑論は、一部の業界リーダーによって共有されており、Prplexity CEOのAravind Srinivasは、「2025年にエージェントが働くと言う人は懐疑的であるべきだ」と促しています。モデルは潜在的に敏感なアクションを実行する前に、潜在的に敏感なアクションを実行する前に、明示的なユーザー確認を必要とする `Safety_decision`を発行できます。このループのアプローチは、テクノロジーが成熟するにつれて重要な保護策です。