企業は、AIエージェントが複雑な仕事を引き継ぐための計画を探求していますが、数万人の連邦政府の役割を自動化することを目指していますが、Carnegie Mellon Universityの研究者からの現実の用途は、AIが完全に配置されたソフトウェア会社を完全にシミュレートする詳細なベンチマークから来ています。この研究は、“theagentcompany”と呼ばれます。 href=”https://arxiv.org/pdf/2412.14161″Target=”_ blank”> arxiv Paper は、AIエージェントを小さなソフトウェア会社の詳細なシミュレーション内に配置しました。この環境には、Gitlab(コードホスティング)、OwnCloud(Office Suite)、Plain(Project Management)、Rocketchat(内部通信)などのオープンソースプラットフォームを使用して構築された内部Webサイトが含まれていました。ターゲット=”_ blank”> openhands エージェントフレームワーク(コンピューターアプリケーションを操作できるビルディングエージェント向けのオープンソースシステム)は、ソフトウェアエンジニアリング、財務、HR、プロジェクト管理、および管理義務にまたがる175のタスクを割り当てられました。これらのタスクは、 o*netデータベースおよび著者の経験を使用する自動化されたチェックポイントに授与されるチェックポイントに特化したチェックポイントに特化したチェックポイントの場合に特別なチェックポイントを使用します。より主観的なチェックのためのLLMベースの評価。環境には、シミュレートされた同僚も備えていました。NPCSは、 sotopia platform (a> a emplualte cap.

fored easion claude 3.5ソネットを搭載したシミュレートされた同僚も取り上げていました。エージェントは、日常のタスクにつまずきます

結果は、初期の、しばしば不器用な能力の絵を描きます。 AnthropicのClaude 3.5 Sonnetがパックをリードしましたが、24.0%のフルタスク完了率(34.4%の部分スコア)しか達成されませんでした。このパフォーマンスは、かなりの運用費用で行われ、平均して6ドルを超え、タスクごとに30近くの相互作用ステップがありました。 GoogleのGemini 2.0 Flashは、特に安価(タスク0.79ドル)でしたが、はるかに遅く(ほぼ40ステップ)、成功度が低く(11.4%)。 OpenaiのGPT-4Oは8.6%の成功(1タスク1.29ドル)を登録しましたが、MetaのOpen-Weight Llama 3.1 405Bは7.4%(3.21ドル/タスク)を達成しました。 AmazonのNova Pro V1(1.7%)を含む他のモデルは、さらに後ろに進みました。これらの低い成功率は、観察されたさまざまな問題に由来しています。

エージェントが障害の分析を緩和した場合、エージェントの能力の基本的な制限を指し示しました。基本的な常識はしばしば欠席しているように見えました。エージェントは、プレーンテキストのような「.docx」ファイルを扱うか、1つのソースに記載されているように、必要なファイルをブロックする「無害なポップアップ」を却下できないことが証明される場合があります。ソーシャルスキルも弱く、シミュレートされたRocketchatシステムを使用して会話を誤って解釈したり、適切にフォローアップしなかったりしました。

研究者は、エージェントがチャットシステムで正しい連絡先を見つけることができない1つの例を文書化しました。複雑なWeb UIをナビゲートすることは、特に独自のCloud Office Suite環境内で特に困難でした。研究者は、一般的な失敗点を、常識、社会的スキルの低さ、Webブラウジングの無能の欠如として広く特定しました。一般に、エージェントは、成功率がゼロに近いことが多い管理、金融、またはデータサイエンスの役割と比較して、ソフトウェア開発エンジニアリング(SDE)タスクでより良くなりました。研究者は、この格差がSDEタスクのトレーニングモデルに利用可能な膨大な量のパブリックコードに起因する可能性があると仮定していますが、管理または財務の仕事のワークフローはしばしば独自であり、トレーニングデータではあまり表現されていません。エージェントは、Rocketchat Communication PlatformとOwnCloud Office Suiteを含むタスクで特に困難を示し、社会的推論と複雑なWeb UIナビゲーションの両方が大きなハードルのままであることを示唆しています。 GitLab(コードホスティング)と飛行機(プロジェクト管理)を含むタスクのパフォーマンスは比較的優れていましたが、信頼性からはほど遠いものでした。 Microsoftは、2025年4月にCopilot Studioで「コンピューター使用」エージェントのプレビューを開始し、GUIの相互作用の自動化を目指しています。 Openaiは、2025年3月の初めにエンタープライズオートメーションのための高コストの「PHDレベル」の研究エージェントを調査していると伝えられています。この提案は、Palantir Alumni Network内での内部懐疑論で満たされ、1人の批評家が「あなたは70kの連邦従業員を解雇し、それらをくだらないオートコレクトに置き換えることに共謀している」と反論しました。 Theagentcompanyの調査結果は、このような大規模な自動化計画を取り巻く実現可能性の質問を強調しています。

ベンチマークでのエージェントの闘争は、現在のAIモデルに固有の既知の弱点と一致しています。人類の主任情報セキュリティ責任者は、2025年4月に、AIの幻覚や脆弱性の脆弱性などの既知の問題を強調する自律的な「仮想従業員」によってもたらされるセキュリティと管理の課題に業界が準備ができていないと警告しました。カーネギーメロンの研究者たちは、エージェントが人間の仕事の一部を加速するかもしれないが、「現時点ではすべてのタスクに代わるものではない」と結論付けた。現在、ジョンソン&ジョンソンのようなエージェントを実験している企業は、人間を巻き込んでいることを強調し、AIを近い将来に代わるのではなく、コラボレーションのツールとして見ています。

Categories: IT Info