LangChain publicó el 1 de julio de 2026 una integración con Harbor para evaluar agentes de larga duración usando Deep Agents, LangSmith Sandboxes, LangSmith Experiments y observabilidad. La noticia no es otro dashboard. Es una respuesta concreta a un problema que aparece cuando los agentes dejan de responder y empiezan a tocar entornos.

Un eval clásico puede comparar una salida esperada contra una respuesta. Un agente stateful modifica archivos, instala dependencias, navega herramientas, falla, reintenta y deja estado. Si corres dos pruebas en el mismo ambiente, ya contaminaste la segunda.

Flujo editorial de Harbor ejecutando múltiples pruebas de agentes en sandboxes aislados y generando resultados verificables

Qué aporta Harbor en esta integración

La propuesta técnica de LangChain es conectar el agente a Harbor con una entrada pequeña: un registro langgraph.json y una fábrica make_graph. Desde ahí, Harbor puede ejecutar trials en sandboxes separados, pasar el modelo desde línea de comandos y dejar que LangSmith capture trazas y resultados.

Para un builder, la idea útil es esta: el eval no debe depender de la laptop del desarrollador ni del estado accidental de una sesión anterior. Cada intento necesita empezar limpio, correr aislado y terminar con un check que diga si la tarea se cumplió.

Por qué las sandboxes importan más que el score

LangSmith Sandboxes ya habían llegado a disponibilidad general como microVMs aisladas, con snapshots, forks y URLs de servicio. Al juntarlas con Harbor, la pieza práctica es el paralelismo reproducible: correr muchos intentos sin compartir estado y sin exponer infraestructura interna al código generado por el agente.

Panel editorial de trazas, Experiments y checks deterministas comparando modelos dentro de entornos limpios

Eso cambia la conversación. En vez de preguntar "¿qué modelo ganó?", puedes preguntar:

qué fallo se repite aunque cambie el modelo;
qué tool produce estados inválidos;
qué prompt mejora una habilidad pero rompe otra;
qué costo tiene subir el número de trials;
y qué evidencia queda para revisar una regresión.

Checklist para montar evals agentic sin autoengaño

Antes de correr cien pruebas, definiría el contrato:

una tarea por ambiente limpio;
un verificador determinista cuando sea posible;
trazas completas de tool calls y errores;
categorías de evals por comportamiento, no solo por benchmark;
comparación de costo, tiempo y tasa de éxito por modelo;
revisión humana de fallos raros antes de ajustar prompts.

LangChain ya había advertido en su guía de evals para Deep Agents que más evals no significa mejores agentes. La integración con Harbor refuerza esa disciplina: evals pequeños, reproducibles y conectados a comportamientos que te importan en producción.

Dónde lo probaría primero

Lo probaría en agentes de coding, data cleanup, migraciones internas, incident response simulado o cualquier flujo donde el agente tenga que operar sobre un filesystem o entorno con estado. No lo usaría para una FAQ simple ni para un bot que solo resume texto.

La demanda actual se infiere por señales concretas: publicación reciente de LangChain, lanzamiento GA de LangSmith Sandboxes, crecimiento de Deep Agents y búsquedas como Harbor agent evals, LangSmith Sandboxes, evaluating AI agents, agent eval runner y evals agentes IA.

Esta historia compite bien para Agente IA porque muchos equipos todavía miden agentes con demos manuales. La idea central es más incómoda y más útil: si tu agente cambia el mundo, tu eval necesita reconstruir el mundo desde cero en cada intento.

Si todavía estás armando el primer agente antes de medirlo a escala, empieza por el curso gratis. Cuando ya tengas tools, permisos y tareas reales, Harbor y LangSmith apuntan a la siguiente etapa: convertir pruebas sueltas en un sistema de evaluación repetible.