Más allá de las innovaciones técnicas, DeepMind está abogando por los cambios estructurales que abarcan el mundo. La compañía sugiere establecer un organismo internacional que evalúe los sistemas AGI, similar a los acuerdos de no proliferación nuclear. Esta organización ayudaría a gestionar los riesgos globales y establecerá un marco estandarizado para el desarrollo y las pruebas de AGI.
Además, DeepMind propone la creación de centros de evaluación de riesgos a nivel nacional para permitir a los países evaluar de forma independiente los sistemas de IA extranjeros y garantizar la seguridad.
Estas sugerencias se encuentran junto a la reestructura interna en Google Deepmind. A principios de 2024, la compañía formó una nueva organización de seguridad y alineación de la IA, combinando varios de sus equipos existentes al introducir nuevos talentos centrados específicamente en los riesgos AGI.
Esta división llevará los esfuerzos de DeepMind para desarrollar soluciones técnicas y estándares de seguridad a medida que avanza el campo. Este enfoque interno se basa en el compromiso más amplio de Google para garantizar el desarrollo responsable de la IA.
En abril de 2023, Google Deepmind fusionó su equipo de cerebro con DeepMind, formando una entidad de investigación unificada encargada de avanzar en las capacidades de IA y garantizar la seguridad de esos avances. La fusión allanó el camino para el desarrollo de la familia Gemini Model, que vio mejoras significativas con el reciente lanzamiento de Gemini 2.5 Pro Experimental, su último modelo de IA multimodal capaz de razonamiento avanzado. Este avance señala las capacidades de creciente de Deepmind, así como su enfoque en garantizar que tales sistemas poderosos se implementen de manera responsable.
eco de los rivales, y algunas contradicciones
El llamado a la regulación de seguridad de DeepMind no existe en la isolación. Llega a medida que otros laboratorios de IA importantes comienzan a tomar medidas similares. Anthrope, uno de los competidores más importantes de Deepmind, emitió una advertencia similar en noviembre de 2024, instando a los reguladores a tomar medidas rápidas en 18 meses para evitar el desarrollo de IA fugitivo. Anthrope también ha estado trabajando con la Administración Nacional de Seguridad Nuclear del Departamento de Energía de EE. UU., Realizando ejercicios de equipo rojo para probar sus modelos Claude en entornos de alta seguridad. Esta iniciativa enfatiza el enfoque creciente en la seguridad de la IA, particularmente en los contextos donde la IA podría afectar la seguridad nacional.
meta, que ha defendido durante mucho tiempo el desarrollo abierto de IA, también está reevaluando su enfoque. En febrero de 2025, la compañía anunció un cambio en su estrategia de IA con el marco Frontier AI, que divide los modelos en categorías de”alto riesgo”y”riesgo crítico”. Meta explicó que los modelos de riesgo crítico ya no se lanzarían públicamente sin salvaguardas estrictas en su lugar.
Esta decisión siguió al mal uso de sus modelos de llama para generar guiones maliciosos y chatbots militares no autorizados. Meta enfatizó que su objetivo es minimizar los riesgos catastróficos asociados con estos modelos.
Si bien estos movimientos reflejan un cambio hacia la precaución, también demuestran la relación cada vez más compleja entre el desarrollo de la IA y su uso indebido potencial. A medida que más empresas recalibran sus estrategias, la propuesta de Deepmind se ajusta a un patrón de precaución más amplio a medida que la industria lidia con el futuro de AGI.
construyendo las herramientas para la contención del modelo
, mientras que gran parte de la conversación en torno a los centros de seguridad de IA en el gobierno, otras compañías se están enfocando en soluciones técnicas. En febrero, Anthrope lanzó el clasificador constitucional, un sistema de filtrado externo diseñado para evitar indicaciones adversas y salidas dañinas de sus modelos de IA. Las pruebas mostraron que el clasificador redujo las tasas de éxito de Jailbreak del 86% a solo 4.4%.
Para validar su efectividad, Anthrope realizó un desafío público que ofrece una recompensa de $ 15,000 a cualquier persona que pueda evitar el sistema. Ninguno de los participantes logró romperlo por completo, subrayando la creciente sofisticación de las herramientas diseñadas para contener sistemas de IA.
Forzando su compromiso con la seguridad, antrópico en marzo lanzó su marco de interpretabilidad, llamándolo un”microscopio de IA”como una herramienta que proporciona información sobre cómo los modelos como Claude toman decisiones. Al analizar las activaciones neuronales, puede rastrear cómo el modelo procesa la información y detectar comportamientos potencialmente dañinos.
Esta interpretabilidad es esencial, argumenta DeepMind, ya que puede evitar los resultados no deseados antes de que se manifiesten.
junto con estas herramientas, Anthrope está utilizando su Clio Marco para rastrear los patrones de uso de IA. Introducido en diciembre de 2024, Clio analiza millones de conversaciones con Claude para detectar patrones de mal uso. El sistema prioriza la privacidad anonimizando las conversaciones antes de procesarlas. Este enfoque proactivo para monitorear el comportamiento de la IA se alinea con el énfasis de Deepmind sobre la necesidad de supervisión continua de seguridad a medida que los sistemas de IA se vuelven más sofisticados.
La Ley de la UE y los esfuerzos de políticas nacionales se detienen
La propuesta de DeepMind a medida que los gobiernos de todo el mundo comienzan a tomar las medidas concretas a la regulación de AI. La Ley de IA de la Unión Europea, que entró en vigencia el 2 de febrero, prohíbe ciertos sistemas de IA que se consideran”riesgos inaceptables”e impone requisitos estrictos de transparencia en los que se consideran de alto riesgo.
Estas regulaciones exigen que las empresas revelen cómo sus modelos están capacitados, qué datos usan y cómo mitigan los riesgos potenciales. Empresas como OpenAI y Meta se han comprometido públicamente a cumplir con estos requisitos, aunque muchas aún no han cumplido completamente.
La implementación de la Ley de la UE sigue meses de debate dentro de la industria sobre la mejor manera de equilibrar la innovación con seguridad. La Comisión Europea ya ha indicado que el incumplimiento podría resultar en fuertes multas, hasta el 6% de los ingresos globales de una compañía para violaciones.
En los Estados Unidos, la Casa Blanca ha comenzado a considerar la reciente propuesta de Anthrope, lo que insta a los protocolos de seguridad y mecanismos de supervisión más estrictos para los modelos AGI. Sin embargo, según lo informado por TechCrunch, Anthrope retrocedió en silencio varios compromisos de seguridad que hizo en los primeros días de la administración Biden, planteando preguntas sobre la consistencia de los esfuerzos de autorregulación de la industria. Este telón de fondo prepara el escenario para el llamado de Deepmind para una gobernanza más fuerte.
BuardRails en asociaciones de hardware e industria
La unidad de seguridad de IA no se limita solo al software. Las compañías de hardware también están desempeñando un papel en la construcción de la infraestructura de seguridad de IA. Nvidia, por ejemplo, introdujo las barandillas Nemo en enero de 2025, un conjunto de microservicios diseñados para proporcionar salvaguardas en tiempo real contra comportamientos de IA dañinos. Las herramientas incluyen filtros de seguridad de contenido, detección de jailbreak y control de temas, todas diseñadas para trabajar en conjunto con los modelos existentes para garantizar que sigan cumpliendo con los protocolos de seguridad.
Estas herramientas ya se están implementando en sectores como la atención médica, el comercio minorista y el automóvil, ofreciendo un nivel de supervisión que la propuesta de profundidad previa en una escala más amplia. Kari Briski, vicepresidenta de modelos de IA Enterprise en NVIDIA, señaló que estos sistemas permiten a las empresas”asegurar sus modelos contra salidas dañinas”mientras mantienen un rendimiento de baja latencia. Al integrar estas tecnologías, NVIDIA se está posicionando como un jugador clave en la seguridad futura de la IA.
La colaboración entre hardware y compañías de software subraya la responsabilidad colectiva compartida en toda la industria para abordar los riesgos AGI. Si bien el marco de DeepMind aboga por una estructura de gobernanza global, está claro que el camino para asegurar la IA requerirá una acción concertada tanto de desarrolladores como de proveedores de hardware.