Muchos equipos ya tienen trazas, dashboards y alertas. Lo que todavía no tienen es un freno operativo útil cuando un agente empieza a gastar más de la cuenta en segundo plano. Ahí entra el cambió de Cloudflare AI Gateway del 5 de junio de 2026: spend limits para poner presupuestos por costo real, no solo por cantidad de requests.

La diferencia importa porque un agente no quema presupuesto de forma pareja. Puede abrir sesiones largas, cambiar de modelo, reintentar sobre varios proveedores o disparar loops por usuario. Un límite por requests sirve poco cuando dos llamadas al mismo endpoint cuestan órdenes de magnitud distintas.

Composición editorial con presupuestos por modelo, buckets por usuario y rutas de costo dentro de un gateway de IA

Qué cambia en la práctica

La documentación de Cloudflare lo deja bastante claro: los spend limits bloquean con 429 cuando el gasto acumulado supera el presupuesto dentro de una ventana de tiempo. No miden volumen. Miden dólares estimados usando tokens y pricing del modelo.

Eso abre tres controles que sí sirven para agentes:

presupuesto por usuario, si envías metadata.user_id;
presupuesto por modelo, si quieres acotar el uso de una clase cara como GPT-5.5 o Claude Opus;
presupuesto por proveedor o aplicación, si operas varios equipos o varios loops sobre el mismo gateway.

Cloudflare dice que puedes mezclar dimensiones como model, provider y metadata personalizada. Ese detalle vale más que el titular porque te deja pasar de “tenemos un tope mensual” a “cada usuario, equipo o flujo tiene su propio bucket”.

El detalle fino: no todo tiene que terminar en bloqueo

La parte más útil del release no es el 429. Es la salida alternativa. Cuando un límite se alcanza, Cloudflare permite dos comportamientos:

bloquear;
o caer a un modelo más barato usando Dynamic Routes.

Eso cambia cómo diseñas costos en producción. Ya no piensas solo en “frenar el gasto”. También puedes pensar en:

dejar un modelo caro para planificación o validación;
y degradar a uno más barato para la ejecución rutinaria cuando se acabe el presupuesto.

No es magia. Sigues necesitando decidir qué tareas toleran esa degradación. Pero ya tienes una palanca operativa dentro del gateway, no un parche en cada cliente.

Escena editorial con una ruta primaria cara, fallback más barato y control de gasto antes de saturar el presupuesto

Los límites reales también importan

No conviene vender esto como control perfecto. La propia documentación deja dos advertencias concretas:

la contabilidad es best effort, no la cifra final de tu proveedor;
y la enforcement es eventually consistent, así que un burst concurrente puede pasarse un poco antes de que el sistema lo corte.

Eso significa que spend limits sirven para gobernar el sistema, no para reemplazar reconciliación financiera. Si operas workflows caros o paralelos, igual necesitas mirar el dashboard del proveedor y hacer revisiones de costo por lote, usuario o tarea.

También hay un límite práctico: máximo 20 reglas por gateway. Para equipos pequeños es bastante. Para una plataforma multi-tenant grande, te obliga a pensar bien qué dimensiones valen una regla y cuáles no.

Mi lectura operativa

Yo no implementaría esto como “ponle un tope y listo”. Lo usaría así:

una regla global por gateway para evitar accidentes grandes;
una regla por metadata.user_id o metadata.team si tienes varios consumidores;
una regla específica para el modelo más caro;
y, cuando el flujo lo soporte, una caída controlada a un modelo más barato.

Ese patrón conversa bien con la guía práctica de GPT-5 y Responses API, porque ahí el problema es diseñar bien el loop; aquí el problema es cuánto cuesta dejarlo correr. Si todavía te falta la base para separar herramientas, permisos y validación, empieza por Instala tu propio agente.

La conclusión corta es esta: Cloudflare entendió que el control de costo para agentes no se resuelve con un dashboard al final del día. Se resuelve con reglas dentro del camino del request, donde todavía puedes bloquear, degradar o repartir presupuesto antes de que el daño ya esté hecho.