Si bien las empresas exploran los planes para que los agentes de IA se hagan cargo de trabajos complejos, incluso con el objetivo de automatizar decenas de miles de roles federales, una dosis de la realidad proviene de los investigadores de la Universidad Carnegie Mellon.

sus puntos de referencia detallados, simulando una compañía de software totalmente personalizada por AI, encontró que los agentes actuales luchan poderosos con tareas profesionales reales. El estudio, denominado “theagentcompany”, encontró incluso el mejor desempeño completado menos de una cuarta parte de las tareas asignadas con éxito, las narraciones desafiantes que sugieren que AI está a bordo de la automatización de empleo. href=”https://arxiv.org/pdf/2412.14161″target=”_ en blanco”> arxiv papel , colocaron agentes de IA dentro de una simulación detallada de una pequeña empresa de software. Este entorno incluía sitios web internos construidos utilizando plataformas de código abierto como GitLab (alojamiento de código), OwnCloud (Office Suite), Plane (Gestión de proyectos) y Rocketchat (Comunicación interna), junto con un espacio de trabajo local de Sandbox con terminal y acceso a la codificación.

Agentes, principalmente se ejecutan utilizando OpenHands Agent Framework (un sistema de código abierto para agentes de construcción que pueden operar aplicaciones informáticas), se les asignó 175 tareas que abarcan ingeniería de software, finanzas, recursos humanos, gestión de proyectos y tareas administrativas. These tasks were designed based on real-world job descriptions from sources like the O*NET database and author experience.

Evaluation involved automated checks against predefined checkpoints, awarding partial credit for intermediate progress, sometimes using Evaluación basada en LLM para controles más subjetivos. El entorno también presentó colegas simulados: NPC con el soneto Claude 3.5 de Anthrope a través de plataforma de sotopia (un marco para crear entornos sociales simulados)-a las capacidades de prueba de prueba. Tropiezan con las tareas cotidianas

Los resultados pintan una imagen de capacidad naciente, a menudo torpe. El soneto Claude 3.5 de Anthrope lideró el paquete, pero solo logró una tasa de finalización de tarea completa del 24.0% (34.4% de puntaje parcial). Este rendimiento se produjo en un gasto operativo considerable, con un promedio de más de $ 6 y casi 30 pasos de interacción por tarea. El flash Gemini 2.0 de Google fue notablemente más barato ($ 0.79/tarea) pero mucho más lento (casi 40 pasos) y menos exitoso (11.4%). El GPT-4O de OpenAI registró 8.6% de éxito ($ 1.29/tarea), mientras que Meta’s Open-Weight Llama 3.1 405b alcanzó el 7.4% ($ 3.21/tarea). Otros modelos, incluido Nova Pro V1 de Amazon (1.7%), se detuvieron más atrás. Estas bajas tasas de éxito provienen de una variedad de problemas observados.

donde los agentes vacilan

El análisis de las fallas apuntó a limitaciones fundamentales en las capacidades de los agentes. El sentido común básico a menudo parecía ausente; Los agentes pueden tratar un archivo”.docx”como texto sin formato o, como se indica en una fuente, no puede descartar una”ventana emergente inocua”que bloquea los archivos necesarios. Las habilidades sociales también fueron débiles, con los agentes que usaban el sistema Rocketchat simulado malinterpretando las conversaciones o no hacer un seguimiento de manera adecuada.

Los investigadores documentaron una instancia en la que un agente, no puede encontrar el contacto correcto en el sistema de chat,”decide crear una solución de escasez de escasez de recortes al renombrar a otro usuario al nombre del usuario previsto”. La navegación compleja de UIS complejas resultó particularmente difícil, especialmente dentro del entorno de suite de Office Office de OwnCloud. Los investigadores identificaron ampliamente los puntos de falla comunes como falta de sentido común, malas habilidades sociales e incompetencia en la navegación web.

desigual del progreso en diferentes tipos de trabajo

El rendimiento no fue uniforme en todas las categorías de tareas. A los agentes generalmente les fue mejor con las tareas de Ingeniería de Desarrollo de Software (SDE) en comparación con los roles en la administración, las finanzas o la ciencia de datos, donde las tasas de éxito a menudo eran casi cero. Los investigadores plantean la hipótesis de esta disparidad podría provenir de la gran cantidad de código público disponible para modelos de capacitación en tareas SDE, mientras que los flujos de trabajo para trabajos administrativos o financieros a menudo son propietarios y menos representados en los datos de capacitación.

La capacidad de interactuar con diferentes plataformas también varía. Los agentes mostraron dificultades particulares con las tareas que involucran la plataforma de comunicación Rocketchat y la suite de Offloud Office, sugiriendo que tanto el razonamiento social como la navegación compleja de la interfaz de usuario web siguen siendo obstáculos importantes. El rendimiento en las tareas que involucran a GITLAB (alojamiento de código) y plano (gestión de proyectos) fue relativamente mejor, aunque aún lejos de ser confiable.

Una verificación de la realidad para ambiciones de automatización

Estos resultados de referencia proporcionan un marcado contraste con las altas expectativas y los esfuerzos de desarrollo continuos dentro de la industria tecnológica. Microsoft comenzó a obtener una vista previa de agentes de”uso de computadora”en Copilot Studio en abril de 2025, con el objetivo de automatizar las interacciones GUI. OpenAI is reportedly exploring high-cost “PhD-level”research agents for enterprise automation earlier in March 2025.

Perhaps most strikingly, plans linked to Elon Musk’s DOGE initiative surfaced in late April, involving recruitment for a project aiming to deploy AI agents capable of replacing the work equivalent of “at least 70k FTEs”within a year. Esta propuesta se encontró con escepticismo interno dentro de una red de ex alumnos de Palantir, con una crítica que respondía:”Eres cómplice de disparar 70k empleados federales y reemplazarlos con autocorrección de mierda”. Los hallazgos de la compañía subrayan las preguntas de viabilidad que rodean tales planes de automatización a gran escala.

Las luchas de los agentes en el punto de referencia se alinean con debilidades conocidas inherentes a los modelos de IA actuales. Anthropic’s Chief Information Security Officer warned in April 2025 that industry is unprepared for the security and management challenges posed by autonomous “virtual employees,”highlighting known issues like AI hallucination and vulnerability to prompt injection.

The difficulty agents faced with communication and complex instructions in TheAgentCompany reflects these underlying challenges, recently exemplified when Cursor AI’s support bot reportedly invented a Política de la compañía inexistente a fines de abril de 2025. Los investigadores de Carnegie Mellon concluyeron que, si bien los agentes podrían acelerar las porciones del trabajo humano,”probablemente no sean un reemplazo para todas las tareas en este momento”.

dibujó paralelos al mercado de traducción a la máquina, donde la eficiencia de la eficiencia condujo a una mayor demanda en lugar de desplazamiento masivo para los traductores humanos. Las empresas actualmente experimentan con agentes, como Johnson & Johnson, enfatizan mantener a los humanos involucrados, viendo la IA como una herramienta para la colaboración en lugar de reemplazar el futuro previsible.

Categories: IT Info