AWS publicó el 1 de junio de 2026 una guía que debería incomodar a cualquier equipo que todavía trata agentes como prompts largos con deploy bonito. La guía habla de AgentOps sobre Amazon Bedrock AgentCore y lo plantea como una disciplina completa: gobernanza, seguridad, construcción, operación, evaluación y observabilidad.

El mensaje importante no es “AWS tiene dashboards”. Es más serio: si un agente toma decisiones, llama tools y cambia estado, necesitas operarlo como sistema de producción, no como conversación mágica.

Flujo editorial con sesiones, trazas y spans conectando llamadas del modelo, tools y resultados de operación

Qué está proponiendo AWS con AgentOps

La guía separa el problema en cuatro pilares:

gobernanza y seguridad;
build y operaciones;
evaluación;
observabilidad.

Esa división es útil porque evita una trampa común: creer que observabilidad significa solo logs. En agentes, el fallo rara vez vive en una sola línea. Puede estar en una herramienta mal escogida, una memoria vieja, una respuesta parcial, una política demasiado amplia o un prompt injection que empujó al agente fuera del flujo.

Por eso AWS insiste en mirar sesiones, trazas, spans, métricas y logs. La documentación de AgentCore explica que esos datos se almacenan en CloudWatch y que para ver métricas, spans y trazas debes habilitar CloudWatch Transaction Search.

La parte práctica: trazas antes de producción

Muchos equipos agregan observabilidad después del primer incidente. Con agentes, ese orden es caro. Si no sabes qué tool llamó el agente, con qué entrada, bajo qué sesión y en qué paso cambió de plan, reconstruir el incidente se vuelve detective work.

Un stack mínimo de AgentOps debería responder:

qué usuario o sistema inició la sesión;
qué tools se invocaron;
qué parte falló;
qué evaluación se aplicó;
cuánto tardó cada paso;
y qué política permitió o bloqueó la acción.

Eso convierte “el agente se equivocó” en un diagnóstico operable.

Panel editorial con evals, políticas y revisión de riesgo antes de promover un agente a producción

AgentOps, AgentCore Observability, AI agent observability, agent traces y CloudWatch agentic AI son búsquedas de gente que ya pasó la etapa de demo. No necesitan otro tutorial de “crea un chatbot”. Necesitan saber cómo sostenerlo cuando toca sistemas reales.

Ahí Agente IA tiene una oportunidad clara en español: explicar qué debe medir un builder antes de prometer autonomía.

Lo que no debes tercerizar al dashboard

AgentCore Observability ayuda a capturar señales, pero no decide por ti qué es éxito. El equipo sigue necesitando:

evals representativas;
criterios de rollback;
límites de permisos;
revisión humana en acciones sensibles;
y ownership claro cuando una tool externa falla.

Sin eso, puedes tener trazas perfectas de un agente mal diseñado.

Checklist para esta semana

Si ya tienes un agente en pruebas, yo revisaría cinco cosas:

Cada tool crítica debe dejar rastro de entrada, salida y error.
Cada sesión debe tener un identificador que conecte usuario, job y decisión.
Los evals deben correr antes de cada cambio grande de prompt, modelo o tool.
Las acciones de escritura deben tener política explícita, no solo confianza.
Los dashboards deben mostrar costo, latencia, fallos y calidad, no solo tráfico.

Si todavía estás montando la base, empieza por el curso gratis y vuelve a esta capa cuando tu agente ya toque datos, tools o usuarios reales.

La conclusión corta: AWS está empujando AgentOps como la forma adulta de operar agentes; no porque sea elegante, sino porque sin trazas, evals y gobernanza la autonomía no escala.