OpenAI hizo un cambio pequeño con impacto directo en arquitectura de agentes: desde el 2 de junio de 2026, las container sessions elegibles pasan a facturarse por minuto con mínimo de cinco minutos, en vez de cargar siempre la sesión completa de veinte minutos.

El precio por minuto no cambia, según el changelog oficial. Lo que cambia es la granularidad. Y para cualquier equipo que usa Code Interpreter, hosted shell o containers para análisis, scripts, parsing, generación de artefactos o verificación, esa granularidad puede modificar decisiones de diseño.

Rutas editoriales que separan sesiones cortas, retries y trabajos largos antes de lanzar un container

La noticia no es “más barato” para todo

Conviene leer el anuncio con cuidado. El cambio ayuda sobre todo a sesiones cortas. Si tu agente abre un container para una tarea de dos o tres minutos, antes podía quedar atrapado en un bloque de veinte. Con el nuevo mínimo de cinco minutos, ese trabajo deja de pagar tanta capacidad ociosa.

Pero no significa que todo container sea automáticamente barato. Si tu agente abre muchos containers en paralelo, deja sesiones vivas por mala coordinación o repite retries sin deduplicar, el costo puede seguir subiendo rápido.

La pregunta buena ahora no es “¿puedo usar Code Interpreter?”. Es:

¿cuánto dura realmente cada job?;
¿cuántos containers abro por usuario o workflow?;
¿puedo agrupar pasos sin perder aislamiento?;
¿dónde conviene reusar estado y dónde conviene empezar limpio?

Cómo cambia el diseño de agentes

Este ajuste favorece tres patrones.

Primero, jobs cortos y verificables. Si el agente necesita validar un CSV, ejecutar una prueba pequeña, convertir un archivo o calcular una métrica puntual, el costo efectivo baja frente al bloque completo.

Segundo, colas con presupuesto por tarea. Ya puedes tratar el container como una unidad más fina dentro de una cola: cinco minutos mínimos, luego crecimiento por duración real.

Tercero, retries más disciplinados. El mínimo menor no es excusa para repetir a ciegas. Es una razón para medir cuándo una reejecución corta sí vale la pena.

Escena editorial con Code Interpreter resolviendo trabajos cortos, artefactos temporales y límites de duración por tarea

Dónde puede salir mal

El error común será pensar que la reducción del mínimo elimina la necesidad de FinOps. No la elimina. Solo vuelve más justa la curva para ciertos trabajos.

Revisaría estos puntos antes de celebrar:

timeouts por tipo de tarea;
métricas de duración real;
número de containers por conversación;
tamaño de archivos temporales;
y si el agente abre containers para trabajo que podía hacer con código local, SQL, funciones deterministas o una tool más barata.

También cuidaría el efecto de “microtareas”. Si partes demasiado el workflow, puedes bajar el costo de cada container y aun así subir el costo total por overhead, tokens y coordinación.

Por qué importa para Latinoamérica

En equipos pequeños, el costo variable decide si un agente pasa de demo a operación. Muchas agencias, startups y builders individuales no necesitan una plataforma enorme; necesitan saber si una tarea corta de análisis les va a explotar el presupuesto.

Este cambio hace más razonable probar flujos como:

revisión automática de archivos subidos por clientes;
análisis de datos de campañas;
generación de reportes livianos;
validación de resultados antes de responder;
y pipelines de soporte que solo requieren cómputo breve.

Si estás todavía montando la base antes de meter containers, empieza por el curso gratis. Si ya tienes agentes con herramientas, la acción práctica esta semana es medir duración real por tarea y separar trabajos cortos, largos y concurrentes.

La lectura final: OpenAI no cambió solo una línea de pricing; cambió el incentivo para usar Code Interpreter en tareas breves sin castigar tanto el primer bloque de ejecución.