LangChain integra Harbor para evals de agentes: sandboxes limpios antes que benchmarks de vitrina
LangChain publicó una integración con Harbor para evaluar agentes largos y stateful usando Deep Agents, LangSmith Sandboxes y Experiments. La señal para builders: los evals de agentes necesitan entornos reproducibles, paralelismo y checks deterministas.

Por qué importa
Esta nota se enfoca en la decisión práctica para builders: qué cambia, qué riesgo agrega y cómo aplicarlo sin romper operación.
LangChain publicó el 1 de julio de 2026 una integración con Harbor para evaluar agentes de larga duración usando Deep Agents, LangSmith Sandboxes, LangSmith Experiments y observabilidad. La noticia no es otro dashboard. Es una respuesta concreta a un problema que aparece cuando los agentes dejan de responder y empiezan a tocar entornos.
Un eval clásico puede comparar una salida esperada contra una respuesta. Un agente stateful modifica archivos, instala dependencias, navega herramientas, falla, reintenta y deja estado. Si corres dos pruebas en el mismo ambiente, ya contaminaste la segunda.

Qué aporta Harbor en esta integración
La propuesta técnica de LangChain es conectar el agente a Harbor con una entrada pequeña: un registro langgraph.json y una fábrica make_graph. Desde ahí, Harbor puede ejecutar trials en sandboxes separados, pasar el modelo desde línea de comandos y dejar que LangSmith capture trazas y resultados.
Para un builder, la idea útil es esta: el eval no debe depender de la laptop del desarrollador ni del estado accidental de una sesión anterior. Cada intento necesita empezar limpio, correr aislado y terminar con un check que diga si la tarea se cumplió.
Por qué las sandboxes importan más que el score
LangSmith Sandboxes ya habían llegado a disponibilidad general como microVMs aisladas, con snapshots, forks y URLs de servicio. Al juntarlas con Harbor, la pieza práctica es el paralelismo reproducible: correr muchos intentos sin compartir estado y sin exponer infraestructura interna al código generado por el agente.

Eso cambia la conversación. En vez de preguntar "¿qué modelo ganó?", puedes preguntar:
- qué fallo se repite aunque cambie el modelo;
- qué tool produce estados inválidos;
- qué prompt mejora una habilidad pero rompe otra;
- qué costo tiene subir el número de trials;
- y qué evidencia queda para revisar una regresión.
Checklist para montar evals agentic sin autoengaño
Antes de correr cien pruebas, definiría el contrato:
- una tarea por ambiente limpio;
- un verificador determinista cuando sea posible;
- trazas completas de tool calls y errores;
- categorías de evals por comportamiento, no solo por benchmark;
- comparación de costo, tiempo y tasa de éxito por modelo;
- revisión humana de fallos raros antes de ajustar prompts.
LangChain ya había advertido en su guía de evals para Deep Agents que más evals no significa mejores agentes. La integración con Harbor refuerza esa disciplina: evals pequeños, reproducibles y conectados a comportamientos que te importan en producción.
Dónde lo probaría primero
Lo probaría en agentes de coding, data cleanup, migraciones internas, incident response simulado o cualquier flujo donde el agente tenga que operar sobre un filesystem o entorno con estado. No lo usaría para una FAQ simple ni para un bot que solo resume texto.
La demanda actual se infiere por señales concretas: publicación reciente de LangChain, lanzamiento GA de LangSmith Sandboxes, crecimiento de Deep Agents y búsquedas como Harbor agent evals, LangSmith Sandboxes, evaluating AI agents, agent eval runner y evals agentes IA.
Esta historia compite bien para Agente IA porque muchos equipos todavía miden agentes con demos manuales. La idea central es más incómoda y más útil: si tu agente cambia el mundo, tu eval necesita reconstruir el mundo desde cero en cada intento.
Si todavía estás armando el primer agente antes de medirlo a escala, empieza por el curso gratis. Cuando ya tengas tools, permisos y tareas reales, Harbor y LangSmith apuntan a la siguiente etapa: convertir pruebas sueltas en un sistema de evaluación repetible.