Hay una pregunta que casi ningun benchmark de coding agents responde bien: que pasa cuando el trabajo no termina en una sola instruccion?

En equipos reales, casi nunca haces un cambió y ya. Haces un cambió, luego entra otro requisito, luego aparece una regresion, luego alguien pide mantener comportamiento anterior mientras agregas otra cosa. Ahí es donde muchos agentes dejan de verse brillantes.

EvoCode-Bench, publicado el 22 de mayo de 2026, ataca precisamente ese hueco.

Workspace editorial persistente con ramas de requisitos, pruebas acumuladas y varias rondas de trabajo inspirado en EvoCode-Bench

Lo que mide y por que si importa

El benchmark propone:

26 tareas stateful;
227 rondas evaluadas;
workspaces que se preservan entre 5 y 15 rondas;
y tests ejecutables que validan no solo el requisito nuevo sino también los anteriores que siguen vigentes.

Eso cambia la pregunta de evaluación.

En vez de medir "puede resolver esta tarea desde cero?", mide algo más cercano al día a día de un equipo: puede seguir trabajando sobre su propio estado sin romper lo que ya había hecho?

Ese matiz parece pequeno, pero cambia mucho el ranking.

El hallazgo que más deberia doler

El abstract del paper lo dice sin adornos:

el mejor resultado de referencia en single-round llega a 78.9;
pero ese mismo liderazgo no se sostiene en la metrica persistente;
y el mejor resultado MT@4 ronda apenas 44.0.

Ademas, el paper reporta que el score agregado cae por debajo de la mitad del rendimiento de la ronda 1 para la ronda 5.

Eso desmonta una mala costumbre muy extendida: evaluar coding agents con tareas aisladas y luego extrapolar que también aguantaran proyectos vivos.

Por que los agentes fuertes también fallan aquí

Lo interesante de EvoCode-Bench no es solo que falle el peor. Es que incluso los mejores exponen otra clase de problema.

Los autores describen un patron bastante reconocible:

los agentes debiles mueren temprano;
los agentes fuertes sobreviven más rondas;
y justo por eso muestran fallas de seguimiento de especificacion y regresiones acumuladas.

Eso se parece mucho a lo que pasa en producción. Un agente suficientemente bueno para llegar lejos también tiene más oportunidades de romper contratos previos, interfaces o expectativas del usuario.

Composicion editorial con pruebas acumuladas, un diff multi-ronda y alertas de regresion dentro de un loop de coding agent

La lectura práctica para un equipo

Si tu proceso actual de evaluación solo incluye tareas de una ronda, EvoCode-Bench te esta diciendo que probablemente estas sobreestimando a tu agente.

Yo sacaria cuatro reglas de aquí:

prueba cambios sobre un repo o workspace que siga vivo entre rondas;
exige tests acumulativos, no solo validacion del último requerimiento;
guarda trazas de decisiones para detectar cuando el agente olvida un contrato previo;
separa benchmark de implementacion inicial y benchmark de mantenimiento iterativo.

Ese cuarto punto suele faltar. Muchos equipos miden que tan bien crea codigo nuevo, pero no que tan bien convive con su propio historial.

Por eso esta nota conversa bien con como usar benchmarks de IA para elegir modelo de agente sin autoenganarse: el número correcto depende de que realidad quieras simular.

Donde si puede generar trafico cualificado

Aunque el benchmark sea academico, la intención de busqueda alrededor del tema es muy práctica:

coding agent benchmark
multi turn coding benchmark
persistent workspace ai agent
regression benchmark coding agents

Ademas, el dataset ya esta publicado en Hugging Face y UniPat AI lo incorporo a su propia superficie de benchmarks, señal de que no se quedó solo como paper suelto.

Eso le da una ventaja editorial a Agente IA: se puede explicar en español con contexto de builder, no solo como resumen de paper.

Mi lectura

EvoCode-Bench deja una leccion simple y útil: un coding agent no se prueba de verdad hasta ver si sigue siendo confiable cuando el trabajo cambia, se acumula y empieza a contradecir decisiones previas.

Ese es el punto donde muchas demos bonitas se convierten en deuda.

Si todavía estas armando el setup base para dar instrucciones más claras y no quemar contexto desde la primera ronda, empieza por Instala Tu Propio Agente de IA.