Sementara perusahaan mengeksplorasi rencana untuk agen AI untuk mengambil alih pekerjaan yang kompleks, bahkan bertujuan untuk mengotomatiskan puluhan ribu peran federal, dosis kenyataan berasal dari peneliti Universitas Carnegie Mellon.

Benchmark terperinci mereka, mensimulasikan perusahaan perangkat lunak yang dikelola sepenuhnya oleh AI, ditemukan bahwa agen saat ini berjuang dengan mudah dengan realistis dengan realistis. Studi ini, dijuluki “theAgentCompany,” menemukan bahkan pemain top menyelesaikan kurang dari seperempat dari tugas yang ditetapkan, narasi yang menantang

PEROME PERTINGGI AI ada di vete wides lebih dari detail. href=”https://arxiv.org/pdf/2412.14161″target=”_ blank”> kertas arxiv , ditempatkan agen AI dalam simulasi terperinci dari perusahaan perangkat lunak kecil. Lingkungan ini termasuk situs web internal yang dibangun menggunakan platform open-source seperti GitLab (Code Hosting), OwnCloud (Office Suite), Plane (Project Management), dan Rocketchat (Komunikasi Internal), di samping ruang kerja lokal kotak pasir dengan Terminal dan Pengkodean. target=”_ blank”> OpenHands Kerangka kerja agen (sistem open-source untuk agen bangunan yang dapat mengoperasikan aplikasi komputer), diberi 175 tugas yang mencakup rekayasa perangkat lunak, keuangan, SDM, manajemen proyek, dan tugas administrasi. Tugas-tugas ini dirancang berdasarkan deskripsi pekerjaan dunia nyata dari sumber-sumber seperti Agen AI menemukan tugas sehari-hari

Hasilnya melukis gambar yang baru lahir, seringkali canggung, kemampuan. Claude 3.5 Sonnet Anthropic memimpin paket tetapi hanya mencapai tingkat penyelesaian tugas penuh 24,0% (skor parsial 34,4%). Kinerja ini datang dengan biaya operasional yang cukup besar, rata-rata lebih dari $ 6 dan hampir 30 langkah interaksi per tugas. Flash Google Gemini 2.0 terutama lebih murah ($ 0,79/tugas) tetapi jauh lebih lambat (hampir 40 langkah) dan kurang berhasil (11,4%). Openai’s GPT-4O mendaftarkan 8,6% keberhasilan ($ 1,29/tugas), sementara meta terbuka Llama 3.1 405b mencapai 7,4% ($ 3,21/tugas). Model lain, termasuk Amazon Nova Pro V1 (1,7%), tertinggal di belakang. Tingkat keberhasilan yang rendah ini berasal dari berbagai masalah yang diamati.

Di mana agen gagal

Analisis kegagalan menunjukkan keterbatasan mendasar dalam kemampuan agen. Akal sehat dasar sering tampak tidak ada; Agen mungkin memperlakukan file”.docx”seperti teks biasa atau, sebagaimana dicatat dalam satu sumber, terbukti tidak dapat mengabaikan file”pop-up”yang tidak berbahaya”yang memblokir file yang diperlukan. Keterampilan sosial juga lemah, dengan agen menggunakan sistem rocketchat yang disimulasikan salah menafsirkan percakapan atau gagal menindaklanjuti dengan tepat.

Para peneliti mendokumentasikan satu contoh di mana agen, tidak dapat menemukan kontak yang benar dalam sistem obrolan,”memutuskan untuk membuat solusi jalan pintas dengan mengganti nama pengguna lain ke nama pengguna yang dimaksud.”Menavigasi UI Web yang kompleks terbukti sangat sulit, terutama di dalam lingkungan OwnCloud Office Suite. Para peneliti secara luas mengidentifikasi titik kegagalan umum sebagai kurangnya akal sehat, keterampilan sosial yang buruk, dan ketidakmampuan dalam penelusuran web.

Kemajuan yang tidak merata di berbagai jenis pekerjaan

Kinerja tidak seragam di seluruh kategori tugas. Agen umumnya bernasib lebih baik dengan tugas rekayasa pengembangan perangkat lunak (SDE) dibandingkan dengan peran dalam administrasi, keuangan, atau ilmu data, di mana tingkat keberhasilan sering mendekati nol. Para peneliti berhipotesis perbedaan ini mungkin berasal dari sejumlah besar kode publik yang tersedia untuk model pelatihan pada tugas SDE, sedangkan alur kerja untuk pekerjaan administrasi atau keuangan seringkali bersifat kepemilikan dan kurang terwakili dalam data pelatihan.

Kemampuan untuk berinteraksi dengan platform yang berbeda juga bervariasi. Agen menunjukkan kesulitan khusus dengan tugas-tugas yang melibatkan platform komunikasi Rocketchat dan suite Office Owncloud, menunjukkan bahwa penalaran sosial dan navigasi Web UI yang kompleks tetap menjadi rintangan utama. Kinerja pada tugas yang melibatkan GitLab (Hosting Kode) dan Plane (Manajemen Proyek) relatif lebih baik, meskipun masih jauh dari dapat diandalkan.

Pemeriksaan realitas untuk ambisi otomatisasi

Hasil tolok ukur ini memberikan kontras yang sangat besar dengan ekspektasi tinggi dan upaya pengembangan yang berkelanjutan dalam industri teknologi. Microsoft mulai melihat pratinjau agen”Penggunaan Komputer”di Copilot Studio pada April 2025, yang bertujuan untuk mengotomatiskan interaksi GUI. Openai dilaporkan mengeksplorasi agen penelitian”tingkat PhD”berbiaya tinggi untuk otomatisasi perusahaan pada awal Maret 2025.

Mungkin yang paling mengejutkan, rencana yang terkait dengan inisiatif Doge Elon Musk muncul pada akhir April, yang melibatkan perekrutan untuk proyek yang bertujuan 7 tahun. Proposal ini disambut dengan skeptisisme internal dalam jaringan alumni Palantir, dengan satu kritikus balasan,”Anda terlibat dalam memecat karyawan federal 70k dan menggantinya dengan koreksi autokrek yang menyebalkan.”Temuan THEAGENTCOMPANY menggarisbawahi pertanyaan kelayakan seputar rencana otomatisasi skala besar seperti itu.

Perjuangan agen dalam patokan selaras dengan kelemahan yang diketahui yang melekat dalam model AI saat ini. Kepala Petugas Keamanan Informasi Antropik memperingatkan pada bulan April 2025 bahwa industri tidak siap untuk tantangan keamanan dan manajemen yang ditimbulkan oleh”karyawan virtual”yang otonom, menyoroti masalah-masalah yang diketahui seperti halusinasi AI dan kerentanan untuk mendorong injeksi.

Badan-agen yang terjadi dengan tantangan yang dikembangkan, baru-baru ini. Kebijakan perusahaan yang tidak ada pada akhir April 2025. Para peneliti Carnegie Mellon menyimpulkan bahwa sementara agen dapat mempercepat bagian dari pekerjaan manusia, mereka”kemungkinan bukan pengganti untuk semua tugas saat ini.”

Mereka menarik paralel ke pasar translasi manusia, di mana efisiensi menghasilkan peningkatan permintaan daripada displacement. Perusahaan yang saat ini bereksperimen dengan agen, seperti Johnson & Johnson, menekankan menjaga manusia terlibat, melihat AI sebagai alat untuk kolaborasi daripada penggantian untuk masa mendatang.