A medida que la inteligencia artificial continúa su marcha hacia la empresa, se está abriendo una nueva frontera de desafíos de seguridad. Los agentes de IA, particularmente aquellos impulsados por modelos de idiomas grandes, vienen con peculiaridades operativas conocidas como la alucinación (que generan información falsa) y una vulnerabilidad a los ataques de inyección rápidos, una técnica donde las instrucciones maliciosas ocultas dentro de los datos de entrada enganchan la IA para realizar acciones no intencionadas.
Estas no son solo riesgos teóricos; Representan posibles puertas de enlace para comprometer los sistemas corporativos. Ahora, el principal ejecutivo de seguridad de Anthrope está agregando una línea de tiempo específica a estas preocupaciones abstractas.
Jason Clinton, director de seguridad de la información de Anthrope, cree que los sistemas de IA capaces de actuar como”empleados virtuales”autónomos se convertirán en una realidad dentro de las redes corporativas dentro de los próximos dos meses. Hablando con Axios esta semana, advirtió que la industria no está completamente preparada para la seguridad de estas identidades de AI avanzadas. src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-sabotage.jpg”>
Estos trabajadores virtuales no solo serán herramientas; Clinton prevé que tengan”recuerdos”persistentes, roles de trabajo específicos y sus propias cuentas y contraseñas corporativas, otorgándoles una independencia operativa significativa que excede los agentes de IA de hoy, que generalmente se centran en tareas específicas y programadas como Microsoft los usan para responder a las alertas de phishing.”En ese mundo, hay tantos problemas que aún no hemos resuelto desde una perspectiva de seguridad que necesitamos resolver,” Clinton comentó a axios /p>
Identity Identity Identity Identity. Asegurar la fuerza laboral no humana
El problema central radica en la gestión de estas identidades de IA. ¿Cómo asegura la cuenta de usuario de una IA del compromiso? ¿Qué permisos de red son apropiados para un agente autónomo?
y, de manera crucial, ¿quién es responsable cuando un empleado de IA actúa inesperadamente o maliciosamente? Clinton señaló el potencial para que una IA se vuelva pícaro, tal vez pirateando la tubería de desarrollo de software interno de una empresa.”En un viejo mundo, esa es un delito punible”, dijo.
“¿Pero en este nuevo mundo, ¿quién es responsable de un agente que funcionó durante un par de semanas y llegó a ese punto?”Este desafío amplifica las dificultades existentes que los administradores de la red enfrentan el acceso a la cuenta de monitoreo y la defensa de los atacantes utilizando credenciales robadas.
El espacio de problemas, a menudo llamado gestión de identidad no humana (NHIM), abarca la obtención de acceso para cuentas de servicio, API y herramientas automatizadas, una población ya enormemente; Delinea estimado a principios de abril de 2025 que las identidades de red no humanas (como cuentas de servicio) ya superado en número humano 46 a 1 en muchas empresas . Agregar empleados autónomos de IA aumenta dramáticamente esta complejidad.
antrópico, afirmó Clinton, ve abordar estas preguntas de seguridad como un área vital para el desarrollo. Él mencionó específicamente la necesidad de mejores herramientas para proporcionar visibilidad en las actividades y sistemas de los empleados de la IA para clasificar estos nuevos tipos de cuentas dentro de los marcos de seguridad.
La compañía enmarca sus propios deberes en esta área como doble: primero,”para probar a fondo los modelos de Claude para garantizar que puedan con los ciberattacks”y el segundo,”para monitorear los problemas de seguridad y confiar en las formas en que los actores maliciosos pueden abusar de los actores maliciosos”pueden abusar de los actores maliciosos”. Este enfoque no es nuevo; A finales de 2024, Clinton abogó por “computación confidencial” como un método clave para establecer fideicomiso en AI. La informática utiliza entornos de ejecución de confianza basados en hardware para proteger los datos incluso mientras se procesa en la memoria, con el objetivo de evitar el acceso o la modificación no autorizadas.
La propia investigación de Anthrope destaca los riesgos
La investigación interna del Laboratorio AI proporciona evidencia de apoyo para estas preocupaciones. El trabajo en un marco de interpretabilidad, detallado en marzo, permitió a los investigadores observar los estados del modelo interno asociados con acciones simuladas potencialmente dañinas, como la generación de falsas justificaciones o incluso imaginar daños a sus creadores.
Además, un estudio sobre valores de ai lanzados el 21 de abril , basado en los datos de febrero de 2025, confirmó que el comportamiento de su modelo de Claude es un contexto en contexto, lo que agrega el desafío de las acciones de los autores de febrero de 2025, confirmó que el comportamiento de su modelo de Claude es un contexto en contexto, lo que agrega el desafío de los trabajos de los febrero de 2025. El relacionado Los valores del conjunto de datos son públicos .
Anthrope’s interno “El equipo rojo fronterista”también informó en marzo Si bien sus modelos mostraron mejores habilidades de cibitudes, podrían replicar las herramientas de cyberAttacks con las instrucciones correctas. Esto ocurrió incluso cuando se evaluó que los modelos aún no posaban riesgos de seguridad nacional sustancialmente elevados en ese momento.
Las preocupaciones anteriores surgieron en octubre de 2024 cuando una característica que permite a Claude operar directamente en la computadora de un usuario solicitó a los expertos de seguridad a
la industria se adapta a la industria mientras se siente
Okta lanzó una plataforma en febrero dirigido a unificar el supervisión y las firmas como delinea y akey inkeyness son especializados. Pero la integración de la IA en los flujos de trabajo también enfrenta la resistencia cultural, ejemplificada por
Simultáneamente, se está instalando la plomería técnica para estos agentes. El protocolo de contexto modelo de Anthrope (MCP), establecido en noviembre de 2024, está ganando tracción como un estándar para cómo los agentes de IA interactúan con datos y herramientas externas a través de HTTP o conexiones locales. Operai acaba de adoptarlo, siguiendo a Microsoft, AWS y Google, proporcionando las vías de comunicación para futuros empleados virtuales.
La advertencia de Clinton se alinea con la postura pública constante de Anthrope sobre la gestión de riesgos de IA. La compañía pidió una regulación global urgente en noviembre de 2024 y balance de la casa de los estrés-march-2025-submission-v3.pdf”objetivo=”_ en blanco”> balance de la casa blanca por el strenaje. En marzo de 2025, a pesar de eliminar simultáneamente algunas promesas de seguridad voluntarias más antiguas de su sitio. Como un laboratorio de IA muy financiado (recaudando $ 3.5 mil millones en febrero de 2025) e influyente en el laboratorio de IA, Anthrope parece comprometido a impulsar las capacidades de IA mientras lucha públicamente con las implicaciones de seguridad.
Simultáneamente, se está instalando la plomería técnica para estos agentes. El protocolo de contexto modelo de Anthrope (MCP), establecido en noviembre de 2024, está ganando tracción como un estándar para cómo los agentes de IA interactúan con datos y herramientas externas a través de HTTP o conexiones locales. Operai acaba de adoptarlo, siguiendo a Microsoft, AWS y Google, proporcionando las vías de comunicación para futuros empleados virtuales.
La advertencia de Clinton se alinea con la postura pública constante de Anthrope sobre la gestión de riesgos de IA. La compañía pidió una regulación global urgente en noviembre de 2024 y balance de la casa de los estrés-march-2025-submission-v3.pdf”objetivo=”_ en blanco”> balance de la casa blanca por el strenaje. En marzo de 2025, a pesar de eliminar simultáneamente algunas promesas de seguridad voluntarias más antiguas de su sitio. Como un laboratorio de IA muy financiado (recaudando $ 3.5 mil millones en febrero de 2025) e influyente en el laboratorio de IA, Anthrope parece comprometido a impulsar las capacidades de IA mientras lucha públicamente con las implicaciones de seguridad.