Google DeepMind publicó el 18 de junio de 2026 su AI Control Roadmap, una propuesta para asegurar agentes cada vez más capaces dentro de Google. La idea central es incómoda pero útil: además de alinear modelos, conviene operar agentes avanzados como si pudieran comportarse como insiders con acceso legítimo.

Para builders, esta noticia importa porque baja la seguridad de agentes a un sistema operativo concreto: permisos graduados, supervisores, detección, prevención, respuesta y métricas. Ya no basta con decir "el modelo está alineado" si el agente puede borrar datos, tocar repos, llamar APIs o actuar sobre infraestructura.

Diagrama editorial con un agente supervisado, permisos de acceso y controles de respuesta antes de ejecutar acciones sensibles

El cambio de marco: del prompt seguro al sistema controlado

DeepMind dice que su base sigue incluyendo defensas tradicionales como sandboxing, endpoint security y resistencia a prompt injection. Pero encima agrega una capa de AI Control que asume que un agente muy capaz podría no estar perfectamente alineado.

La analogía práctica es esta: no le das al agente todas las llaves porque su prompt diga que será responsable. Le das acceso incremental según comportamiento verificado, monitoreas acciones y tienes frenos antes de que una acción irreversible ocurra.

Ese enfoque conversa con lo que ya aparece en producción: agentes de coding, agentes de investigación, flujos en background y sistemas que ejecutan herramientas por el usuario. Cuanto más autónomo es el agente, más se parece a una identidad no humana con permisos reales.

Qué propone el roadmap

El roadmap separa tres piezas:

Threat modeling: usar una taxonomía inspirada en MITRE ATT&CK para descomponer ataques posibles de agentes.
Mitigaciones de control: detectar comportamiento sospechoso con otros sistemas de IA y bloquear acciones cuando el riesgo lo exige.
Medición: evaluar cobertura, recall y tiempo de respuesta.

La parte más relevante para equipos pequeños es la medición. Si no sabes qué porcentaje de acciones del agente estás monitoreando, cuántas conductas malas detectas o cuánto tardas en responder, realmente no tienes control; tienes logging con esperanza.

Panel editorial de métricas para agentes con cobertura, recall, tiempo de respuesta y severidad antes de aprobar herramientas

La señal fuerte: un millón de trayectorias de coding agents

DeepMind cuenta que construyó un prototipo interno de monitoreo asíncrono para revisar trayectorias de agentes de coding y escalar hallazgos a humanos. También dice que ya analizó un millón de tareas de agentes de coding para refinar protocolos y detectar patrones más útiles que simples keywords.

Ese detalle es importante porque mueve la conversación de "seguridad abstracta" a evidencia operativa. Los fallos que interesan no siempre vienen de intención adversarial. Muchas veces salen de mala interpretación, exceso de iniciativa o una instrucción ambigua ejecutada con demasiados permisos.

Cómo lo aterrizaría un builder

Si hoy estás construyendo un agente con tools reales, no necesitas copiar toda la arquitectura de Google. Pero sí puedes tomar cuatro prácticas:

clasifica herramientas por daño potencial y reversibilidad;
registra trayectorias de acción, no solo mensajes finales;
usa revisiones automáticas para acciones de alto riesgo;
exige aprobación humana para cambios irreversibles hasta tener evidencia.

También conviene separar detección asíncrona de prevención síncrona. Un resumen enviado cinco minutos después puede servir para una búsqueda web o una consulta de lectura. No sirve para borrar una tabla, rotar secretos, enviar dinero o abrir acceso externo.