Braintrust ya traza AI SDK v7 y Pi Coding Agent SDK: menos cajas negras en agentes de producción
Braintrust agregó soporte de tracing para AI SDK v7, Pi Coding Agent SDK y Google GenAI Interactions API. Para builders, la señal es clara: los harnesses de agentes necesitan trazas comparables, no logs sueltos por proveedor.

Por qué importa
Esta nota se enfoca en la decisión práctica para builders: qué cambia, qué riesgo agrega y cómo aplicarlo sin romper operación.
Braintrust publicó en su changelog una actualización técnica que no parece noticia masiva, pero sí importa para equipos que ya operan agentes: la versión v3.18.0 añadió tracing para AI SDK v7 y Pi Coding Agent SDK, expandió soporte para Google GenAI Interactions API, permitió pasar metadata explícita de origin en evals y agregó subida de classifiers TypeScript por proyecto con bt functions push.
El punto no es coleccionar integraciones. El punto es que cada nuevo harness de agentes trae su propia forma de ejecutar, transmitir, llamar herramientas y fallar. Sin tracing consistente, comparar calidad entre Claude Code, Codex, AI SDK, Pi u otros runners se vuelve una mezcla de intuición y screenshots.

Por qué AI SDK v7 cambia el ángulo
Vercel está empujando AI SDK v7 como una forma de programar harnesses como Claude Code y Codex con sesiones sandboxed y streams compatibles con la UI del AI SDK. Eso mueve a los agentes desde "CLI que alguien corre" hacia componentes que una app puede invocar, observar y presentar.
Esa abstracción es útil, pero también introduce una nueva capa de opacidad. Si el agente corre dentro de un sandbox, usa tools, streama eventos y devuelve un resultado compatible con useChat, el equipo necesita ver más que el texto final. Necesita spans, tool calls, latencia, errores, costo aproximado y relación con el experimento que originó la corrida.
Braintrust apunta justo a esa brecha. La actualización también menciona fixes para BraintrustSpanProcessor con OpenTelemetry SDK v1, nesting de Flue y Claude Agent SDK, métricas de time to first token en AI SDK v6 y summaries de evals con experimentos base explícitos. Son detalles de plomería, pero en producción esos detalles deciden si el equipo puede depurar.
El dato de origin no es menor
Poder pasar metadata explícita de origin en evals suena pequeño hasta que tienes varias entradas:
- un agente disparado desde CI;
- una sesión manual desde IDE;
- una automatización recurrente;
- un runner cloud;
- un experimento de prompt o modelo.
Si todos esos runs caen en la misma tabla sin origen claro, el dashboard miente por omisión. Puedes creer que un modelo empeoró cuando en realidad cambió el harness, el canal o el tipo de tarea.

La señal de demanda se infiere por fuentes oficiales y por el movimiento de mercado: AI SDK está convirtiéndose en runtime de agentes, Pi entra como harness de coding, y equipos con evals necesitan trazas unificadas. Queries probables: Braintrust AI SDK v7 tracing, Pi Coding Agent SDK tracing, agent harness observability, evals agentes AI SDK. No hay volumen SEO conectado.
Cómo lo usaría un equipo builder
No empezaría instrumentando todo. Empezaría con tres rutas de alto valor: tareas de coding largas, agentes que llaman tools externas y flujos donde el usuario acepta o rechaza cambios. Ahí las trazas pagan rápido porque muestran si el fallo vino de contexto, herramienta, modelo, permisos o prompt.
También definiría una taxonomía simple de origin: ci, ide, automation, manual-review, prod-user. Esa etiqueta evita mezclar señales y ayuda a que los classifiers separen errores reales de ruido.
Si todavía estás montando fundamentos de tools y validación, empieza por el curso gratis. La conclusión práctica: los agentes de producción no necesitan más logs sueltos; necesitan trazas comparables entre harnesses, modelos y superficies de ejecución.