Los posts de benchmarks siempre prometen un ganador. El problema es que la producción no se parece a un benchmark. Por eso el AI Gateway production index que Vercel publicó el 12 de mayo de 2026 sí merece atención: no sale de un test aislado, sino de siete meses de tráfico real sobre AI Gateway.

La nota arranca con una pista bastante más fuerte de lo que parece: los workloads agentic ya cargan 59% de todo el volumen de tokens, y Vercel dice además que ese peso se duplicó en seis meses.

Composición editorial con dashboards de gasto y volumen separados para tráfico de agentes y llamadas multimodelo

La primera lección: gasto y volumen no dicen lo mismo

Vercel separa dos tablas que mucha gente mezcla.

Por gasto, en abril de 2026:

Anthropic tomó 61%,
Google 21%,
OpenAI 12%.

Pero por volumen de tokens, en ese mismo mes:

Google lideró con 38%,
Anthropic quedó en 26%,
OpenAI en 13%,
y xAI en 10%.

Eso importa porque desmonta una lectura simplona: el laboratorio que más factura no es necesariamente el que más mueve tráfico, y viceversa.

La segunda lección: el stack serio ya no depende de un modelo

Quizá el dato más útil para builders sea otro: Vercel afirma que los workloads de alto volumen enrutan, en promedio, sobre más de 30 modelos distintos.

Eso ya no suena a “elige un modelo y ya”. Suena a:

modelo premium para pasos críticos;
modelo barato para rutas de alto volumen;
fallback por latencia;
y cambios de proveedor según tarea o presupuesto.

Escena editorial con rutas multi modelo, bandas de costo y decisiones de gateway antes de llegar al modelo final

Qué tipo de demanda revela esta historia

best model for ai agents
vercel ai gateway production index
anthropic vs gemini production traffic
multi model routing agents

Ese tráfico vale porque llega de equipos que ya pasaron la fase de “quiero probar IA” y ahora necesitan responder preguntas más operativas:

qué modelo uso para cada tramo;
cuál aguanta tráfico barato;
cuál sí vale por calidad;
y cuándo conviene mover el control al gateway en lugar de dejarlo dentro del cliente.

Qué sí puedes sacar en limpio

Hay tres conclusiones prudentes:

1. Los agentes ya no son borde experimental

Si 59% del volumen pasa por workloads agentic, ya no estamos hablando de un rincón del mercado. Estamos hablando de una carga principal del runtime.

2. Elegir por “modelo ganador” te deja corto

La misma base de clientes usa modelos caros para calidad y modelos baratos para throughput. Eso sugiere que el problema real es diseño de routing, no fandom de laboratorio.

3. El gateway gana peso político y técnico

Cuando una app o un agente reparte tráfico entre docenas de modelos, el control ya no puede vivir solo en el prompt o en el cliente. Empieza a vivir en la capa que decide:

allowlists,
fallback,
orden de providers,
presupuestos,
observabilidad.

Lo que este índice no prueba

Tampoco hay que sobreleerlo. Vercel ve solo el universo que pasa por su gateway. No es un censo total de la industria. Y “más volumen” no equivale automáticamente a “mejor modelo”.

Pero sí es una señal mucho más útil que otra tabla de laboratorio porque conecta con uso real.

Mi lectura

La noticia aquí no es coronar a Google, Anthropic u OpenAI. La noticia es más incómoda y más práctica: los equipos serios ya están operando stacks multimodelo donde el gateway pesa tanto como el modelo.

Si todavía estás ordenando cómo separar tools, costos y permisos antes de abrir más rutas, empieza por el curso gratis. Y si quieres verlo junto a una capa de control más dura, esta nota conversa perfecto con Provider Allowlist en Vercel AI Gateway: una pieza te da la foto del tráfico; la otra te da el freno operativo.