La mayoría de comparativas de agentes siguen atrapadas en la misma pregunta floja: qué modelo razona mejor. Pinecone acaba de mostrar otra cosa mucho más útil para builders. En su nota del 2 de junio de 2026, cuenta cómo rehizo su agente interno AskData sobre Nexus y consiguió más de 92% menos tokens y 78% menos turns de consulta sin subir la exactitud final.

La lectura buena no es "Pinecone ganó un benchmark". La lectura buena es otra: muchos agentes no se caen por el modelo, sino por la orientación inútil que repiten en cada sesión.

Escena editorial de un agente de datos con costo de contexto reducido y menos pasos para llegar a SQL útil

El cuello de botella no era SQL; era contexto

Pinecone describe AskData como un agente interno que pregunta sobre revenue, riesgo, adopción y métricas del negocio mezclando warehouse, hilos de Slack, notas, CRM y documentos internos. El problema no era que el modelo no pudiera escribir SQL. El problema era que cada turno tenía que reaprender:

qué tabla era la canónica;
qué filtro había que excluir;
qué definición de ARR seguía vigente;
y qué atajo falso no había que usar.

Esa parte pesa más de lo que parece. En el post explican que una pregunta compleja llegó a gastar alrededor de 240,000 tokens en 9 pasos, y que 7 de esos 9 se iban solo en orientarse antes de analizar.

Ahí está la noticia real. Si tu agente pasa la mitad del presupuesto descubriendo vocabulario, no tienes un problema de inteligencia. Tienes un problema de capa de conocimiento.

Qué cambió en la práctica

La migración que describe Pinecone no fue "meter otro modelo". Fue reducir la superficie del agente.

Antes, AskData V1 había crecido a:

22 tools entre dos agentes;
6 superficies de retrieval separadas;
ETLs distintas por fuente;
y un prompt cada vez más largo para explicar cuándo usar cada herramienta.

Después, Pinecone redujo la ruta a dos retrieval tools principales y movió la síntesis a una capa compilada. El resultado que reportan:

más de 92% menos tokens en el rediseño sobre Nexus;
78% menos turns para resolver preguntas;
y paridad de exactitud en su set interno difícil.

Eso conversa directo con una obsesión muy común en equipos pequeños: seguir ampliando el prompt o abrir más tools cuando el agente se pierde. El caso de AskData va en sentido contrario: menos herramientas visibles, menos ramas de decisión y más contexto preparado antes de la consulta.

Composición editorial con herramientas colapsadas, brief compilado y menos vueltas antes de ejecutar la consulta

Mi checklist corto si tu agente también se pierde

Yo probaría este orden antes de cambiar de modelo:

Medir cuántos pasos se van en orientación y no en trabajo útil.
Unificar definiciones canónicas fuera del prompt principal.
Colapsar tools redundantes.
Separar retrieval de datos crudos y retrieval de criterio operativo.
Correr evals sobre preguntas reales, no solo sobre demos limpias.

Si todavía estás montando la base de un agente antes de meterte con memoria y contexto empresarial, empieza por el curso gratis. Pero si ya pasaste esa etapa, esta nota deja una conclusión útil: el agente mejora mucho cuando dejas de hacerlo improvisar el mapa del negocio en cada turno.

Pinecone dice que el problema no es el modelo: AskData baja 92% de tokens cuando el agente deja de orientarse

El cuello de botella no era SQL; era contexto

Qué cambió en la práctica

Lo más útil para builders de agentes

Mi checklist corto si tu agente también se pierde