Braintrust publicó en su changelog una actualización técnica que no parece noticia masiva, pero sí importa para equipos que ya operan agentes: la versión v3.18.0 añadió tracing para AI SDK v7 y Pi Coding Agent SDK, expandió soporte para Google GenAI Interactions API, permitió pasar metadata explícita de origin en evals y agregó subida de classifiers TypeScript por proyecto con bt functions push.

El punto no es coleccionar integraciones. El punto es que cada nuevo harness de agentes trae su propia forma de ejecutar, transmitir, llamar herramientas y fallar. Sin tracing consistente, comparar calidad entre Claude Code, Codex, AI SDK, Pi u otros runners se vuelve una mezcla de intuición y screenshots.

Panel editorial de trazas con origin metadata, spans de herramientas y evals comparables entre harnesses

Por qué AI SDK v7 cambia el ángulo

Vercel está empujando AI SDK v7 como una forma de programar harnesses como Claude Code y Codex con sesiones sandboxed y streams compatibles con la UI del AI SDK. Eso mueve a los agentes desde "CLI que alguien corre" hacia componentes que una app puede invocar, observar y presentar.

Esa abstracción es útil, pero también introduce una nueva capa de opacidad. Si el agente corre dentro de un sandbox, usa tools, streama eventos y devuelve un resultado compatible con useChat, el equipo necesita ver más que el texto final. Necesita spans, tool calls, latencia, errores, costo aproximado y relación con el experimento que originó la corrida.

Braintrust apunta justo a esa brecha. La actualización también menciona fixes para BraintrustSpanProcessor con OpenTelemetry SDK v1, nesting de Flue y Claude Agent SDK, métricas de time to first token en AI SDK v6 y summaries de evals con experimentos base explícitos. Son detalles de plomería, pero en producción esos detalles deciden si el equipo puede depurar.

El dato de `origin` no es menor

Poder pasar metadata explícita de origin en evals suena pequeño hasta que tienes varias entradas:

un agente disparado desde CI;
una sesión manual desde IDE;
una automatización recurrente;
un runner cloud;
un experimento de prompt o modelo.

Si todos esos runs caen en la misma tabla sin origen claro, el dashboard miente por omisión. Puedes creer que un modelo empeoró cuando en realidad cambió el harness, el canal o el tipo de tarea.

Red editorial de classifiers, spans y trazas agrupando fallos de agentes por origen y tipo de tarea

La señal de demanda se infiere por fuentes oficiales y por el movimiento de mercado: AI SDK está convirtiéndose en runtime de agentes, Pi entra como harness de coding, y equipos con evals necesitan trazas unificadas. Queries probables: Braintrust AI SDK v7 tracing, Pi Coding Agent SDK tracing, agent harness observability, evals agentes AI SDK. No hay volumen SEO conectado.

Cómo lo usaría un equipo builder

No empezaría instrumentando todo. Empezaría con tres rutas de alto valor: tareas de coding largas, agentes que llaman tools externas y flujos donde el usuario acepta o rechaza cambios. Ahí las trazas pagan rápido porque muestran si el fallo vino de contexto, herramienta, modelo, permisos o prompt.

También definiría una taxonomía simple de origin: ci, ide, automation, manual-review, prod-user. Esa etiqueta evita mezclar señales y ayuda a que los classifiers separen errores reales de ruido.

Si todavía estás montando fundamentos de tools y validación, empieza por el curso gratis. La conclusión práctica: los agentes de producción no necesitan más logs sueltos; necesitan trazas comparables entre harnesses, modelos y superficies de ejecución.

Por qué AI SDK v7 cambia el ángulo

El dato de origin no es menor

Cómo lo usaría un equipo builder

El dato de `origin` no es menor