Google DeepMind ha introducido un marco integral destinado a evaluar y mitigar los riesgos potenciales asociados con los modelos avanzados de IA. El Marco de seguridad de frontera busca abordar capacidades peligrosas a medida que la tecnología de IA continúa evolucionando.

El marco de seguridad de IA, publicado por Google DeepMind, describe un proceso sistemático para evaluar los modelos de IA. Las evaluaciones ocurren cada vez que la potencia computacional utilizada para entrenar un modelo se multiplica por seis o cuando el modelo se somete a ajustes durante tres meses. Entre evaluaciones, se diseñan sistemas de alerta temprana para detectar riesgos emergentes. DeepMind planea colaborar con otras empresas, el mundo académico y los legisladores para perfeccionar y mejorar el marco, y la implementación de herramientas de auditoría comenzará en 2025.

Prácticas de evaluación actuales

Actualmente, la evaluación de potentes modelos de IA es un proceso ad hoc, que evoluciona a medida que los investigadores desarrollan nuevas técnicas. Los”equipos rojos”pasan largos períodos probando modelos intentando eludir las salvaguardas utilizando varias indicaciones.
 
Luego, las empresas implementan técnicas como el aprendizaje por refuerzo e indicaciones especiales para garantizar el cumplimiento. Si bien este enfoque es suficiente para los modelos actuales, que no lo son aunque lo suficientemente potente como para plantear amenazas importantes, se considera necesario un proceso más sólido a medida que avanzan las capacidades de IA.

Niveles de capacidad crítica

DeepMind ha establecido niveles de capacidad crítica específicos para cuatro dominios: autonomía, bioseguridad, ciberseguridad e investigación y desarrollo de aprendizaje automático. Estos niveles están diseñados para identificar modelos que potencialmente podrían ejercer control sobre los humanos o crear malware sofisticado. La compañía enfatiza la importancia de equilibrar la mitigación de riesgos con el fomento de la innovación y el acceso a la tecnología de inteligencia artificial.

Evolución del marco y. Colaboración

El marco de seguridad de Frontier está diseñado para identificar y mitigar de manera proactiva los riesgos futuros que plantean los modelos avanzados de IA, abordando posibles daños graves, como una agencia excepcional o capacidades cibernéticas sofisticadas.
 
Su objetivo es complementar la investigación existente sobre alineación de la IA y el conjunto de prácticas de seguridad y responsabilidad de la IA de Google. El marco evolucionará a medida que avance la implementación y se profundice la colaboración con la industria, el mundo académico y el gobierno.

El equipo de seguridad de Frontier ha desarrollado un conjunto de evaluaciones para evaluar los riesgos de las capacidades críticas, haciendo hincapié en los agentes LLM autónomos. Su artículo reciente explora mecanismos para un”sistema de alerta temprana”para predecir capacidades futuras. El marco se revisará y evolucionará periódicamente, alineándose con los Principios de IA de Google para garantizar beneficios generalizados y al mismo tiempo mitigar riesgos.

Críticos como Eliezer Yudkowsky expresan escepticismo sobre la capacidad de detectar superinteligencia en modelos de IA con suficiente rapidez para prevenir amenazas potenciales. Argumentan que la naturaleza inherente de la tecnología de IA puede permitirle burlar las medidas de seguridad diseñadas por humanos.

El marco de trabajo de Google DeepMind se discutirá en una Cumbre de IA en Seúl, donde los líderes de la industria se reunirán para compartir ideas y avances en seguridad de la IA.

Categories: IT Info