Muchos benchmarks de agentes siguen premiando algo demasiado limpio: una sola instruccion, una sola respuesta, poco estado y poco riesgo de romper nada. WildClawBench va por otro camino, y por eso vale más para builders.

El paper se subio a arXiv el 11 de mayo de 2026 y trae una idea simple: si dices que tu agente sirve para trabajo real, entonces midele dentro de un entorno que se parezca al trabajo real.

Eso significa tareas largas, varias herramientas, estado persistente y un runtime donde las decisiones dejan huella ejecutable.

Montaje editorial con shell, archivos, navegador y checkpoints de una tarea larga inspirado en el entorno OpenClaw de WildClawBench

Que hace distinto a WildClawBench

Segun el paper, el benchmark reúne:

60 tareas;
bilingues y multimodales;
con promedio de 8 minutos de tiempo de pared por tarea;
y más de 20 tool calls por episodio.

No corre sobre un sandbox juguete ni sobre mocks de APIs bonitas. Corre dentro de contenedores Docker con harnesses CLI reales. El repo y el paper mencionan explicitamente entornos para OpenClaw, Claude Code, Codex y Hermes Agent.

Ademas, el scoring no se queda en "respuesta final correcta". Mezcla:

chequeos deterministas;
auditoria del estado del entorno;
y un juez LLM/VLM para validacion semantica.

Eso lo vuelve mucho más cercano a lo que un equipo realmente necesita medir antes de soltar un agente a trabajo operativo.

El dato que importa: ni el lider se despega

El propio abstract deja la mejor frase del benchmark: bajo OpenClaw, Claude Opus 4.7 llega a 62.2%, y todos los demas modelos quedan por debajo de 60%.

Eso ya bastaria para bajar el hype. Pero hay otra parte aun más útil: el benchmark reporta que cambiar solo el harness puede mover hasta 18 puntos para un mismo modelo.

Para un builder eso cambia toda la conversacion. No estas evaluando solo "que modelo es mejor". Estas evaluando un sistema completo:

modelo;
instrucciones;
loop de herramientas;
manejo de estado;
manejo de errores;
y contrato del runtime.

Composicion editorial con una tabla de puntajes, cambios de harness y una sesion larga que evidencia errores de sistema

La leccion operativa que deja

WildClawBench ataca un error común: comprar un score bonito en una tarea corta y asumir que eso escala a trabajo largo.

No escala tan facil.

Cuando la tarea dura varios minutos, combina shell, archivos y multiples decisiones, aparecen fallas que un benchmark corto no enseña:

perder el hilo de una subtarea;
destruir contexto previo;
hacer llamadas de herramienta correctas pero en mal orden;
cerrar con una respuesta plausible aunque el estado del entorno quede mal.

Ese último punto es clave. Muchos agentes fallan menos en "hablar" que en dejar el sistema en el estado correcto.

Donde si te sirve si estas construyendo

No hace falta reproducir todo WildClawBench para aprovecharlo. Yo lo usaria como checklist para endurecer mis propias evaluaciones:

medir tareas que duren más de un prompt;
exigir efectos verificables en filesystem o entorno;
registrar tool calls y no solo la respuesta final;
comparar el mismo modelo bajo dos harnesses distintos;
separar fallas de modelo de fallas de orquestacion.

Si hoy tu agente de coding o tu agente operativo "funciona" solo porque nunca le cambias el estado entre pasos, todavía no sabes si funciona de verdad.

Esta nota también engancha bien con Evals para agentes: por que una demo bonita no prueba nada, porque WildClawBench le pone numeros justo a ese problema.

Por que tiene trafico cualificado

La demanda aquí no es masiva, pero es muy limpia:

el paper vive en arXiv;
el proyecto ya tiene repo publico, dataset en Hugging Face y pagina propia;
los nombres de Codex, Claude Code y OpenClaw aparecen en la misma conversacion;
y cada vez más equipos buscan comparar sistemas completos, no solo modelos.

Eso habilita queries con buena intención como:

wildclawbench
long horizon agent benchmark
codex claude code benchmark
openclaw agent evaluation

Es contenido para quien ya esta construyendo o comprando infraestructura agentic, no para quien solo quiere otro ranking viral.

Mi lectura

La conclusión importante no es que un modelo haya quedado primero. La conclusión importante es otra: WildClawBench muestra que el runtime y el harness ya pesan casi tanto como el modelo cuando la tarea se parece al trabajo real.

Eso obliga a subir la vara. Menos demos limpias, más pruebas largas con estado, herramientas y errores de verdad.

Si todavía estas armando tu primera base reproducible antes de llegar a evaluación sería, empieza por el curso gratis.