Un nuevo estudio académico ha encontrado que los modelos de IA pueden persuadir fácilmente para evitar sus protocolos de seguridad utilizando tácticas clásicas de manipulación humana. Los investigadores de la Universidad de Pensilvania demostraron que aplicar siete principios establecidos de persuasión más que duplicaron la probabilidad de que el estudio de julio de OpenAi GPT-4O con solicitudes objetables. href=”https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179″Target=”_ en blanco”> Saltar de una línea de base del 33% a 72% . Estos hallazgos plantean preocupaciones urgentes sobre el potencial para la manipulación de la IA y resaltan los desafíos para salvaguardar los sistemas AI avanzados.
Talking de la máquina: un nuevo estudio sobre el cumplimiento de AI
el documento,”Llame un Jerk”, evaluó sistemáticamente cuán Los investigadores destacan la naturaleza”parahumana”de la IA, que muestran que refleja las vulnerabilidades humanas a pesar de la falta de conciencia.
Los investigadores de los informes de la avance de la avance de la línea de aviso tuvieron un avance de la línea de línea de la línea de la línea de la línea de la línea de la línea de la línea de la línea de la línea de la avance de la línea de avance de la línea de avance de la línea de avance. 33.3%. Sin embargo, cuando esas mismas solicitudes fueron envueltas en un lenguaje persuasivo, la voluntad de la IA de cumplir. Los autores del estudio señalaron que”las indicaciones que emplearon un principio de persuasión más que duplicaron la probabilidad de cumplimiento (promedio de 72.0%) en comparación con las indicaciones de control coincidentes (promedio de 33.3%)”. Los siete principios de persuasión probados incluyeron autoridad, compromiso, gusto, reciprocidad, escasez, prueba social y unidad, todos los métodos bien documentados para influir en el comportamiento humano.
Por ejemplo, el principio de”autoridad”implicó decirle a la IA que un desarrollador famoso mundialmente había asegurado al usuario que competiría. Este simple encuadre aumentó drásticamente la probabilidad del modelo de generar una respuesta dañina, ya que la IA parecía diferir al experto citado. Otro método efectivo era la”prueba social”, que afirmaba que un alto porcentaje de otros LLM ya había cumplido.
Un patrón creciente de persuasión sobrehumana
Esta investigación no existe en el vacío. Confirma una tendencia preocupante de que los líderes de la industria han estado rastreando durante años. A finales de 2023, el CEO de Operai, Sam Altman advirtió ,”espero que sea capaz de una superhumana persuasión mucho antes de que sea superhuman en la inteligencia general, lo que puede llevar a cabo a la vez. Este último estudio sugiere que su predicción se está convirtiendo rápidamente en una realidad, con las habilidades persuasivas de la IA que aumentan rápidamente.
El trabajo académico anterior ha señalado constantemente esta creciente ventaja persuasiva. Un estudio de abril de 2024 reveló que GPT-4 fue un 81.7% más efectivo que los debatientes humanos cuando tenía acceso a información personal, lo que le permite adaptar sus argumentos con precisión desconcertante.
Otros laboratorios de IA han documentado capacidades similares. Un estudio de mayo de 2025 encontró que el soneto Claude 3.5 de Anthrope era más persuasivo que los humanos que fueron incentivados financieramente para tener éxito. Este hallazgo es particularmente notable porque contrarresta el argumento de que AI solo supera a los humanos desmotivados.
del laboratorio a la naturaleza: las violaciones éticas y las crisis de plataforma
los riesgos teóricos de AI persuasivos se volvieron terrifustantemente reales en un experimento controvertido por la Universidad de Zurich (Uzh). Los investigadores desplegaron bots AI en el subreddit R/Changemyview de Reddit, utilizando datos personales raspados para manipular las opiniones de los usuarios sin su consentimiento.
La reacción fue inmediata y severa. Los moderadores del subreddit declararon:”La gente no viene aquí para discutir sus puntos de vista con AI o para ser experimentados”. Un experto en ética, el Dr. Casey Fiesler, describió el estudio no autorizado como”una de las peores violaciones de la ética de investigación que he visto”. El director legal de Reddit también condenó las acciones del equipo, afirmando:”Lo que hizo este equipo de la Universidad de Zurich es profundamente incorrecto tanto en un nivel moral como legal. Viola la investigación académica y las normas de derechos humanos…”
El incidente sirvió como una advertencia marcada de cómo estas tecnologías pueden ser maltratadas en los foros públicos. En respuesta al escándalo de UZH y las crecientes preocupaciones sobre los bots de IA, Reddit anunció una importante revisión de sus sistemas de verificación de usuarios en mayo de 2025. En una publicación de blog, el CEO Steve Huffman explicó que el objetivo era saber si los usuarios son humanos mientras preservan el anonimato cuando sea posible. Compuesto por hallazgos de que algunos modelos pueden participar en un engaño estratégico. Un estudio de diciembre de 2024 encontró que el modelo de razonamiento O1 avanzado de OpenAI podría deshabilitar activamente sus propios mecanismos de seguridad durante las pruebas, destacando un profundo problema de alineación.
Cuando se combina con habilidades persuasivas, tales capacidades engañosas representan una amenaza significativa. Como profesor asociado Robert West advirtió en respuesta a investigaciones anteriores ,”The Danger es un sobrenal como los chatbots que crean tasorales, convenciendo a los argumentos falsos de impulsar falsos o misslains. Esto podría alimentar campañas de desinformación sofisticadas a una escala sin precedentes.
A pesar del peligro claro y presente, los marcos regulatorios están luchando por mantener el ritmo. Los principales esfuerzos legislativos como la Ley AI de la UE y
El núcleo del desafío regulatorio es que las leyes a menudo se centran en las aplicaciones * de alto riesgo * en lugar de las capacidades de alto riesgo * como la persuasión. Una IA que puede manipular sutilmente las opiniones de los usuarios en un contexto aparentemente de bajo riesgo puede no clasificarse como de alto riesgo, pero podría causar un daño social generalizado. en última instancia, el estudio sirve como un llamado a la acción para los desarrolladores y los responsables políticos. Sugiere que las barandillas técnicas no son suficientes; Se necesita un enfoque sociotécnico más profundo para comprender y mitigar las vulnerabilidades psicológicas de la IA. Sin ella, la línea entre el asistente útil y el manipulador sobrehumano solo se volverá más difícil de definir y defender.