Cloudflare publicó el 19 de marzo de 2026 que Workers AI ya corre modelos grandes, empezando por Kimi K2.5 de Moonshot AI. La noticia parece tarde si solo miras el calendario, pero ahora importa más porque el mercado de agentes ya está chocando con el mismo límite una y otra vez: cada sesión larga quema tokens, cache, latencia y presupuesto.

La lectura práctica no es "Kimi llega a otra API". La lectura práctica es que Cloudflare intenta juntar tres piezas que normalmente compras separadas: modelo de contexto largo, runtime de agentes y mecanismos para bajar costo operativo.

Flujo editorial con Kimi K2.5, contexto largo, tool calling y medición de uso sobre Workers AI

Qué cambió exactamente

Cloudflare dice que Kimi K2.5 entra a Workers AI como modelo open source de escala frontier, con contexto de 256K, multi-turn tool calling, entrada visual y salidas estructuradas. La documentación lo expone como @cf/moonshotai/kimi-k2.5, así que el interés para builders no se queda en lectura de benchmark: ya hay superficie de ejecución dentro de Workers AI.

El ángulo más fuerte está en costo. Cloudflare cuenta que usa Kimi K2.5 en herramientas internas de desarrollo, incluyendo revisión automática de código. En un ejemplo ilustrativo, habla de un agente que procesa más de 7B tokens por día y afirma que el cambio a Kimi en Workers AI redujo costos en 77% frente a una alternativa propietaria de rango medio.

No tomaría ese porcentaje como promesa universal. Sí lo tomaría como señal de mercado: cuando un agente trabaja todo el día, el modelo caro deja de ser detalle y se vuelve arquitectura.

Lo más útil: cache y async, no solo el modelo

La parte que más me importa del anuncio está después del titular. Cloudflare también habla de prefix caching, métrica de tokens cacheados, descuento para tokens cacheados y un header x-session-affinity para mejorar la probabilidad de que una sesión vuelva al mismo modelo.

Eso es muy concreto para agentes. Un agente de coding, research o soporte no manda prompts aislados. Manda historial, herramientas, instrucciones, archivos, resultados y contexto previo. Si cada turno vuelve a pagar el prefill completo, la factura se infla rápido.

Escena editorial con cola asincrónica, sesiones de agentes y prioridad entre inferencia síncrona y tareas durables

Cloudflare también rediseñó su API asincrónica para cargas que no necesitan respuesta inmediata: escaneo de código, investigación, auditorías o lotes de análisis. Ese patrón conversa bien con agentes reales: muchas tareas no tienen que bloquear al usuario, pero sí tienen que terminar con trazabilidad.

Cuándo lo probaría

Yo pondría Kimi K2.5 en Workers AI en la lista si tu agente cumple dos o más de estas condiciones:

procesa mucho contexto repetido;
usa tool calling multi-turno;
puede esperar ejecución asincrónica;
ya corre sobre Cloudflare Workers, Workflows, Durable Objects o Sandboxes;
necesita controlar costo antes de escalar a cientos de sesiones.

No lo usaría a ciegas para reemplazar el modelo principal de un producto crítico. Haría una prueba cerrada con los mismos prompts, mismas tools, mismo presupuesto de pasos y mismas métricas de éxito. Un modelo más barato que requiere más reintentos puede salir caro.

La decisión real

La pregunta buena no es "¿Kimi K2.5 es mejor que Claude u OpenAI?". La pregunta útil es: ¿cuándo te conviene una plataforma donde el modelo, el runtime y los controles de costo viven juntos?

Si todavía estás armando la base de tools y permisos, empieza por el curso gratis. Si ya tienes agentes largos en producción, esta noticia merece una prueba: Cloudflare está diciendo que el cuello de botella de agentes no es solo inteligencia, sino economía de inferencia, cache y ejecución durable.