Los benchmarks de agentes se están moviendo de “resuelve este puzzle” a una pregunta más incómoda: ¿puede el agente hacer trabajo que una empresa pagaría? Ahí entra Agents' Last Exam (ALE), publicado por investigadores de UC Berkeley el 3 de junio de 2026 y destacado en Hugging Face Papers durante la semana.

La noticia útil no es otro leaderboard. Es el tipo de prueba: tareas largas, económicamente valiosas, con resultados verificables y con origen en trabajo real de expertos. Para builders, eso se parece mucho más a producción que una demo donde el agente abre una página, resume algo y declara victoria.

Mapa editorial de 13 industrias y tareas verificables donde un agente debe dejar evidencia, no solo una respuesta plausible

Qué mide distinto

ALE cubre 13 clusters de industria, 55 subcampos y más de 1,000 tareas. La página de Hugging Face resume el punto central: evaluar agentes en workflows largos, reales y con resultados que se pueden verificar.

Eso cambia la conversación por tres razones:

las tareas vienen de proyectos que expertos ya completaron;
los agentes pueden usar GUI y CLI, no solo responder texto;
la calificación busca resultados deterministas, no una opinión humana suelta.

El dato que baja la temperatura

El número que importa es duro: en el tier más difícil, el full pass rate promedio es 2.6% para configuraciones mainstream de harness y modelo. No significa que los agentes sean inútiles. Significa algo más práctico: las demos ya están muy por delante de la confiabilidad real en tareas económicas largas.

Para un equipo que quiere comprar o construir agentes, ese dato vale más que otro ranking de “mejor modelo”. Si el caso de uso requiere autonomía sostenida, verificación y responsabilidad sobre el resultado, todavía necesitas mucho andamiaje.

Tablero editorial con una brecha de pass rate, controles de verificación y revisión humana antes de aceptar trabajo agentic

Qué hacer con esta señal si construyes agentes

Yo usaría ALE como lista de preguntas para tus propias evals:

¿la tarea deja un artefacto verificable o solo una respuesta bonita?
¿el agente puede usar herramientas reales sin que le escondas la fricción?
¿mides el estado final del sistema, no solo el texto final?
¿separaste fallas de razonamiento, navegación, permisos, memoria y tool use?
¿tienes tareas largas con interrupciones, no solo prompts limpios?

La parte más valiosa de ALE es que empuja a medir trabajo completo. Un agente que falla al 80% en una subtarea pequeña puede parecer prometedor; un agente que falla al final de una cadena de 90 minutos puede costar dinero, reputación o seguridad.

Donde no conviene exagerar

ALE tampoco debe convertirse en una sola verdad universal. Una taxonomía amplia puede no representar la frecuencia real de tareas dentro de tu empresa. Además, una tarea de benchmark casi nunca captura todos tus permisos, datos, auditoría y cultura de revisión.

Pero sí pone una vara mejor: si un proveedor te vende “autonomía para trabajo real”, pídele evidencia de tareas parecidas a las de ALE, no solo SWE-bench, chat demos o videos editados.