Cloudflare pone Kimi K2.5 en Workers AI: el costo de agentes largos ya es decisión de arquitectura
Cloudflare anunció que Workers AI ya sirve Kimi K2.5, un modelo open source de contexto largo para tool calling, visión y salidas estructuradas. Para builders, la señal útil no es solo el modelo: es combinar inferencia, cache, async y runtime de agentes en la misma plataforma.

Por qué importa
Esta nota se enfoca en la decisión práctica para builders: qué cambia, qué riesgo agrega y cómo aplicarlo sin romper operación.
Cloudflare publicó el 19 de marzo de 2026 que Workers AI ya corre modelos grandes, empezando por Kimi K2.5 de Moonshot AI. La noticia parece tarde si solo miras el calendario, pero ahora importa más porque el mercado de agentes ya está chocando con el mismo límite una y otra vez: cada sesión larga quema tokens, cache, latencia y presupuesto.
La lectura práctica no es "Kimi llega a otra API". La lectura práctica es que Cloudflare intenta juntar tres piezas que normalmente compras separadas: modelo de contexto largo, runtime de agentes y mecanismos para bajar costo operativo.

Qué cambió exactamente
Cloudflare dice que Kimi K2.5 entra a Workers AI como modelo open source de escala frontier, con contexto de 256K, multi-turn tool calling, entrada visual y salidas estructuradas. La documentación lo expone como @cf/moonshotai/kimi-k2.5, así que el interés para builders no se queda en lectura de benchmark: ya hay superficie de ejecución dentro de Workers AI.
El ángulo más fuerte está en costo. Cloudflare cuenta que usa Kimi K2.5 en herramientas internas de desarrollo, incluyendo revisión automática de código. En un ejemplo ilustrativo, habla de un agente que procesa más de 7B tokens por día y afirma que el cambio a Kimi en Workers AI redujo costos en 77% frente a una alternativa propietaria de rango medio.
No tomaría ese porcentaje como promesa universal. Sí lo tomaría como señal de mercado: cuando un agente trabaja todo el día, el modelo caro deja de ser detalle y se vuelve arquitectura.
Por qué esto sí compite por tráfico cualificado
Las búsquedas buenas aquí no son genéricas. Son cosas como:
Kimi K2.5 Workers AI;modelo open source para agentes;Workers AI tool calling;Kimi K2.5 contexto 256K;inferencia barata para coding agents.
Quien busca eso probablemente ya está comparando si correr agentes en OpenAI, Anthropic, Together, Cloudflare, infraestructura propia o algún router. En español hay mucho contenido sobre modelos, pero menos sobre cómo cambia el costo cuando el modelo vive dentro del mismo stack donde corren colas, sandboxes, workflows y gateways.
Lo más útil: cache y async, no solo el modelo
La parte que más me importa del anuncio está después del titular. Cloudflare también habla de prefix caching, métrica de tokens cacheados, descuento para tokens cacheados y un header x-session-affinity para mejorar la probabilidad de que una sesión vuelva al mismo modelo.
Eso es muy concreto para agentes. Un agente de coding, research o soporte no manda prompts aislados. Manda historial, herramientas, instrucciones, archivos, resultados y contexto previo. Si cada turno vuelve a pagar el prefill completo, la factura se infla rápido.

Cloudflare también rediseñó su API asincrónica para cargas que no necesitan respuesta inmediata: escaneo de código, investigación, auditorías o lotes de análisis. Ese patrón conversa bien con agentes reales: muchas tareas no tienen que bloquear al usuario, pero sí tienen que terminar con trazabilidad.
Cuándo lo probaría
Yo pondría Kimi K2.5 en Workers AI en la lista si tu agente cumple dos o más de estas condiciones:
- procesa mucho contexto repetido;
- usa tool calling multi-turno;
- puede esperar ejecución asincrónica;
- ya corre sobre Cloudflare Workers, Workflows, Durable Objects o Sandboxes;
- necesita controlar costo antes de escalar a cientos de sesiones.
No lo usaría a ciegas para reemplazar el modelo principal de un producto crítico. Haría una prueba cerrada con los mismos prompts, mismas tools, mismo presupuesto de pasos y mismas métricas de éxito. Un modelo más barato que requiere más reintentos puede salir caro.
La decisión real
La pregunta buena no es "¿Kimi K2.5 es mejor que Claude u OpenAI?". La pregunta útil es: ¿cuándo te conviene una plataforma donde el modelo, el runtime y los controles de costo viven juntos?
Si todavía estás armando la base de tools y permisos, empieza por el curso gratis. Si ya tienes agentes largos en producción, esta noticia merece una prueba: Cloudflare está diciendo que el cuello de botella de agentes no es solo inteligencia, sino economía de inferencia, cache y ejecución durable.