Vercel publica tráfico real de AI Gateway y deja una pista incómoda: los agentes ya mueven 59% del volumen
Vercel publicó el 12 de mayo de 2026 su AI Gateway production index con datos de más de 200 mil equipos. La lectura útil no es coronar un modelo ganador: es entender que el tráfico agentic ya domina el volumen, que gasto y volumen no apuntan al mismo laboratorio y que los equipos serios ya enrutan sobre más de 30 modelos.

Por qué importa
Esta nota se enfoca en la decisión práctica para builders: qué cambia, qué riesgo agrega y cómo aplicarlo sin romper operación.
Los posts de benchmarks siempre prometen un ganador. El problema es que la producción no se parece a un benchmark. Por eso el AI Gateway production index que Vercel publicó el 12 de mayo de 2026 sí merece atención: no sale de un test aislado, sino de siete meses de tráfico real sobre AI Gateway.
La nota arranca con una pista bastante más fuerte de lo que parece: los workloads agentic ya cargan 59% de todo el volumen de tokens, y Vercel dice además que ese peso se duplicó en seis meses.

La primera lección: gasto y volumen no dicen lo mismo
Vercel separa dos tablas que mucha gente mezcla.
Por gasto, en abril de 2026:
- Anthropic tomó 61%,
- Google 21%,
- OpenAI 12%.
Pero por volumen de tokens, en ese mismo mes:
- Google lideró con 38%,
- Anthropic quedó en 26%,
- OpenAI en 13%,
- y xAI en 10%.
Eso importa porque desmonta una lectura simplona: el laboratorio que más factura no es necesariamente el que más mueve tráfico, y viceversa.
La segunda lección: el stack serio ya no depende de un modelo
Quizá el dato más útil para builders sea otro: Vercel afirma que los workloads de alto volumen enrutan, en promedio, sobre más de 30 modelos distintos.
Eso ya no suena a “elige un modelo y ya”. Suena a:
- modelo premium para pasos críticos;
- modelo barato para rutas de alto volumen;
- fallback por latencia;
- y cambios de proveedor según tarea o presupuesto.

Qué tipo de demanda revela esta historia
No hace falta inventar volumen para ver la intención de búsqueda que sale de aquí:
best model for ai agentsvercel ai gateway production indexanthropic vs gemini production trafficmulti model routing agents
Ese tráfico vale porque llega de equipos que ya pasaron la fase de “quiero probar IA” y ahora necesitan responder preguntas más operativas:
- qué modelo uso para cada tramo;
- cuál aguanta tráfico barato;
- cuál sí vale por calidad;
- y cuándo conviene mover el control al gateway en lugar de dejarlo dentro del cliente.
Qué sí puedes sacar en limpio
Hay tres conclusiones prudentes:
1. Los agentes ya no son borde experimental
Si 59% del volumen pasa por workloads agentic, ya no estamos hablando de un rincón del mercado. Estamos hablando de una carga principal del runtime.
2. Elegir por “modelo ganador” te deja corto
La misma base de clientes usa modelos caros para calidad y modelos baratos para throughput. Eso sugiere que el problema real es diseño de routing, no fandom de laboratorio.
3. El gateway gana peso político y técnico
Cuando una app o un agente reparte tráfico entre docenas de modelos, el control ya no puede vivir solo en el prompt o en el cliente. Empieza a vivir en la capa que decide:
- allowlists,
- fallback,
- orden de providers,
- presupuestos,
- observabilidad.
Lo que este índice no prueba
Tampoco hay que sobreleerlo. Vercel ve solo el universo que pasa por su gateway. No es un censo total de la industria. Y “más volumen” no equivale automáticamente a “mejor modelo”.
Pero sí es una señal mucho más útil que otra tabla de laboratorio porque conecta con uso real.
Mi lectura
La noticia aquí no es coronar a Google, Anthropic u OpenAI. La noticia es más incómoda y más práctica: los equipos serios ya están operando stacks multimodelo donde el gateway pesa tanto como el modelo.
Si todavía estás ordenando cómo separar tools, costos y permisos antes de abrir más rutas, empieza por el curso gratis. Y si quieres verlo junto a una capa de control más dura, esta nota conversa perfecto con Provider Allowlist en Vercel AI Gateway: una pieza te da la foto del tráfico; la otra te da el freno operativo.