複雑なデジタルワークフローを自動化するために設計されたツールであるOpenaiの新しいChatGPTエージェントは、皮肉なことに、そのようなプログラムを阻止するために構築されたセキュリティシステムを打ち負かすことで腕前を証明しています。有給ユーザー向けの7月17日の発売直後に、AIはクラウドフレーの「私はロボットではない」検証をナビゲートしたことが観察されました。このデモンストレーションは、エージェントの高度な機能を紹介するだけでなく、AIシステムとWebセキュリティ対策の間のエスカレートアームレースの新しい段階を示しています。セキュリティチェックポイントに近づいたとき、AIはユーザーの思考プロセスをナレーションし、「私がボットではないことを証明してアクションを進めるためにこのステップが必要です」と述べています。ターゲット=”_ blank”>オンラインで共有。この瞬間は、現代AIのパラドックスを完全に捉えています。エージェントが打ち負かしたシステム、 cloudflareのターンスタイルは、視覚的な容疑者なしで人間性を確認するためにマウスの動きのような行動の手がかりを分析する現代の進化です。エージェントの成功は、これらの人間のようなパターンを模倣する洗練された能力を意味します。ここでは、エージェントはただ話しているわけではありません。この種の自動化された動作を正確に防ぐために設計されたデジタルチェックポイントを介して機能しています。
この機能は、長期にわたる「武器競争」の一部です。皮肉なことに、GoogleのRecaptchaのようなシステムは、そのようなテストを破ることができるようになっている非常にAIモデルをトレーニングするために、長い間人間の入力を使用してきました。しかし、主流のツールによるこの注目度の高い成功は、この問題をサイバーセキュリティの議論の最前線にもたらします。ターゲット=”_ blank”>「エージェントAI”。このツールは、2025年1月に最初に導入されたより限定的な前身であるオペレーターに優先します。仮想コンピューター内で動作し、ブラウザよりも広いツールセットを提供します。ターゲット=”_ blank”>リモートブラウザとコード実行端子を組み合わせます。 Openaiの製品リードであるYash Kumarは、エージェントがフルコンピューターにアクセスできるため、「ChatGPTエージェントはブラウザだけでなく「コンピューター全体」にアクセスできるため、「ツールセットをかなり強化した」」と説明しました。基礎となるモデルは、Openaiによると、前のトップモデルO4-Miniによって達成された6.3%からの大幅な飛躍である、困難なFrontiermathベンチマークで27.4%を獲得し、印象的なパフォーマンスを誇っています。これは、2024年10月にリリースされたAnthropicの「コンピューター使用」機能と、AIスタジオの同様のエージェント機能に関するGoogleのテストに対する明確な応答です。 Microsoftは重要なプレーヤーであり、VP Charles Lamannaが目標を述べていることは、「人がアプリを使用できる場合、エージェントもできる」と述べています。最近のカーネギーメロンの調査では、トップAIモデルでさえ、ビジネスオートメーションタスクと格闘し、常識とウェブブラウジングの問題を強調していることがわかりました。 Openaiの新しいエージェントは、これらの現実世界のパフォーマンスベンチマークに対して測定されます。 href=”https://cdn.openai.com/pdf/18a02b5d-6b67-4cec-ab64-68cdfbdddebcd/preparedness-framework-v2.pdf”Target=”_ blank”> safeguardsこのフレームワークは、現在のリスクの直接的な証拠がなくても、生物学的ドメインや化学ドメインなどの高リスク領域での潜在的な誤用に対する予防策として呼び出されました。 Research LeadのIsa Fulfordによると、「ChatGptエージェントが「不可逆的」なことをする前に、メールを送信したり予約したりするなど、最初に許可を求めています。」この「人間のループ」アプローチは、エージェントが明示的な許可なしに不可逆的な手順を実行するのを防ぐために設計されています。
さらなる測定には、ユーザーがナビゲートすると機密ウェブサイトでエージェントのアクティビティを自動的に一時停止する「ウォッチモード」が含まれます。 Openaiは、起動時にChatGPTメモリ機能を無効にして、迅速なインジェクションとデータ除去攻撃からのリスクを軽減し、慎重なロールアウト戦略を強調しました。フルフォードは、バックグラウンドアシスタントとしての役割を強調し、「15分、30分かかったとしても、それがあなたがそれをするのにどれくらいの時間がかかるか比較して非常に大きなスピードアップです」と述べました。これにより、エージェントはインスタントツールとしてではなく、複雑で時間のかかるプロセスの強力な代表としてフレーム化されます。