NoticiaBenchmarks IA8 min

WildClawBench pone a los agentes a trabajar de verdad: tareas largas, tools reales y ningun modelo pasa del 63%

WildClawBench aparecio el 11 de mayo de 2026 como benchmark de 60 tareas largas y multimodales corriendo dentro de runtimes CLI reales como OpenClaw, Claude Code, Codex y Hermes Agent. La lectura util para builders es brutal: cambiar de harness puede mover hasta 18 puntos y ni el lider rompe el 63%.

HFGitHub
Banco editorial de pruebas para agentes con terminales, navegador, tareas largas y evaluacion real inspirada en WildClawBench

Muchos benchmarks de agentes siguen premiando algo demasiado limpio: una sola instruccion, una sola respuesta, poco estado y poco riesgo de romper nada. WildClawBench va por otro camino, y por eso vale mas para builders.

El paper se subio a arXiv el 11 de mayo de 2026 y trae una idea simple: si dices que tu agente sirve para trabajo real, entonces midele dentro de un entorno que se parezca al trabajo real.

Eso significa tareas largas, varias herramientas, estado persistente y un runtime donde las decisiones dejan huella ejecutable.

Montaje editorial con shell, archivos, navegador y checkpoints de una tarea larga inspirado en el entorno OpenClaw de WildClawBench

Que hace distinto a WildClawBench

Segun el paper, el benchmark reúne:

  • 60 tareas;
  • bilingues y multimodales;
  • con promedio de 8 minutos de tiempo de pared por tarea;
  • y mas de 20 tool calls por episodio.

No corre sobre un sandbox juguete ni sobre mocks de APIs bonitas. Corre dentro de contenedores Docker con harnesses CLI reales. El repo y el paper mencionan explicitamente entornos para OpenClaw, Claude Code, Codex y Hermes Agent.

Ademas, el scoring no se queda en "respuesta final correcta". Mezcla:

  • chequeos deterministas;
  • auditoria del estado del entorno;
  • y un juez LLM/VLM para validacion semantica.

Eso lo vuelve mucho mas cercano a lo que un equipo realmente necesita medir antes de soltar un agente a trabajo operativo.

El dato que importa: ni el lider se despega

El propio abstract deja la mejor frase del benchmark: bajo OpenClaw, Claude Opus 4.7 llega a 62.2%, y todos los demas modelos quedan por debajo de 60%.

Eso ya bastaria para bajar el hype. Pero hay otra parte aun mas util: el benchmark reporta que cambiar solo el harness puede mover hasta 18 puntos para un mismo modelo.

Para un builder eso cambia toda la conversacion. No estas evaluando solo "que modelo es mejor". Estas evaluando un sistema completo:

  • modelo;
  • instrucciones;
  • loop de herramientas;
  • manejo de estado;
  • manejo de errores;
  • y contrato del runtime.

Composicion editorial con una tabla de puntajes, cambios de harness y una sesion larga que evidencia errores de sistema

La leccion operativa que deja

WildClawBench ataca un error comun: comprar un score bonito en una tarea corta y asumir que eso escala a trabajo largo.

No escala tan facil.

Cuando la tarea dura varios minutos, combina shell, archivos y multiples decisiones, aparecen fallas que un benchmark corto no enseña:

  • perder el hilo de una subtarea;
  • destruir contexto previo;
  • hacer llamadas de herramienta correctas pero en mal orden;
  • cerrar con una respuesta plausible aunque el estado del entorno quede mal.

Ese ultimo punto es clave. Muchos agentes fallan menos en "hablar" que en dejar el sistema en el estado correcto.

Donde si te sirve si estas construyendo

No hace falta reproducir todo WildClawBench para aprovecharlo. Yo lo usaria como checklist para endurecer mis propias evaluaciones:

  1. medir tareas que duren mas de un prompt;
  2. exigir efectos verificables en filesystem o entorno;
  3. registrar tool calls y no solo la respuesta final;
  4. comparar el mismo modelo bajo dos harnesses distintos;
  5. separar fallas de modelo de fallas de orquestacion.

Si hoy tu agente de coding o tu agente operativo "funciona" solo porque nunca le cambias el estado entre pasos, todavia no sabes si funciona de verdad.

Esta nota tambien engancha bien con Evals para agentes: por que una demo bonita no prueba nada, porque WildClawBench le pone numeros justo a ese problema.

Por que tiene trafico cualificado

La demanda aqui no es masiva, pero es muy limpia:

  • el paper vive en arXiv;
  • el proyecto ya tiene repo publico, dataset en Hugging Face y pagina propia;
  • los nombres de Codex, Claude Code y OpenClaw aparecen en la misma conversacion;
  • y cada vez mas equipos buscan comparar sistemas completos, no solo modelos.

Eso habilita queries con buena intencion como:

  • wildclawbench
  • long horizon agent benchmark
  • codex claude code benchmark
  • openclaw agent evaluation

Es contenido para quien ya esta construyendo o comprando infraestructura agentic, no para quien solo quiere otro ranking viral.

Mi lectura

La conclusion importante no es que un modelo haya quedado primero. La conclusion importante es otra: WildClawBench muestra que el runtime y el harness ya pesan casi tanto como el modelo cuando la tarea se parece al trabajo real.

Eso obliga a subir la vara. Menos demos limpias, mas pruebas largas con estado, herramientas y errores de verdad.

Si todavia estas armando tu primera base reproducible antes de llegar a evaluacion seria, empieza por el curso gratis.