Si hoy preguntas por el “mejor framework para agentes”, lo más normal es recibir una mezcla de opiniones, demos y repos con mucha estrella pero poca evidencia comparable. El paper ADK Arena, subido a arXiv el 4 de junio de 2026, intenta ordenar ese caos con una idea bastante elegante.

En vez de comparar frameworks con developers humanos distintos, propone una metodología llamada LLM-as-a-Developer: el mismo agente aprende la API del framework desde la documentación, escribe el código del agente y lo repara iterativamente hasta que pase validaciones.

Eso vuelve la comparación bastante más útil para builders. No mide solo el modelo. También mide cuánta fricción mete el toolkit.

Escena editorial con múltiples frameworks compitiendo en una arena de validación, costo y éxito operativo

Qué evaluó ADK Arena

El paper dice haber corrido 51 frameworks Python sobre 204 pares framework-benchmark. La infraestructura mete:

aislamiento por framework con Docker;
una validación en tres niveles;
y adaptadores para SWE-bench, τ²-bench, Terminal-Bench y MCP-Atlas.

Ese set ya es más serio que la mayoría de comparativas que circulan en redes. No intenta responder “qué prompt es mejor”, sino cómo se comporta un framework cuando de verdad le pides a un agente entender documentación, generar código y corregirse.

Los tres hallazgos que sí cambian criterio

1. Solo 57% de los runs generan algo válido

Ese dato por sí solo ya baja bastante el hype. Antes de hablar de calidad final, el benchmark dice que la generación exitosa ocurre en 57% de las corridas.

Traducción: para muchos frameworks, el primer problema no es optimizar desempeño. El primer problema es que el agente llegue a producir una implementación operativa.

2. El costo para llegar ahí varía 5.6x

El paper reporta una variación de 5.6 veces en costo de generación, desde 0.6 dólares hasta 3.4 dólares por agente. Los autores lo usan como proxy de complejidad de API.

Eso importa porque muchas decisiones de framework se toman como si el costo real viviera solo en inferencia del runtime. No. También vive en la fricción para construir, corregir y mantener el agente.

3. No hay un framework que domine todo

El resultado más sano es que no aparece un ganador universal. Los mejores agentes por benchmark pueden llegar a 80% de resolución y, en algunos casos, superar a frontier coding agents generalistas a menor costo. Pero el framework mediano resuelve solo 32%.

Eso ya te obliga a dejar de pensar en frameworks como religión.

Panel editorial con scorecards comparativos, costo por agente y un rendimiento muy desigual entre frameworks

La parte más subestimada: documentación y fuente no son el cuello único

ADK Arena también hace ablaciones sobre fuentes de información. El paper reporta que el uso genuino del framework queda en una banda relativamente estrecha de 28% a 40%, incluso cuando cambias acceso a documentación, código fuente o conocimiento paramétrico.

La lectura útil no es “la docs no importa”. La lectura útil es otra: ninguna fuente sola arregla un framework difícil de aprender o de usar desde un agente.

Eso encaja con una intuición muy práctica: si tu toolkit exige demasiadas convenciones implícitas, APIs raras o mucha magia contextual, el agente paga ese impuesto antes de resolver la tarea real.

Mi lectura práctica

Yo usaría ADK Arena para matar una mala costumbre: elegir framework por narrativa o por ecosistema X sin medir el costo que le impone al agente.

La pregunta correcta deja de ser solo “¿qué framework tiene más features?” y pasa a ser:

¿qué tan fácil es para un agente aprenderlo desde la docs?;
¿qué tan caro es reparar errores dentro de ese toolkit?;
¿en qué benchmark o tipo de tarea gana realmente?;
¿y cuánto de esa ventaja sobrevive cuando cambias el contexto?

Si estás armando agentes que dependen de tools, evals y flujos reproducibles, esta historia conversa bien con MCP-Persona y las apps personales reales: uno te muestra el costo de escoger mal el toolkit; el otro te recuerda que incluso un toolkit bien elegido no garantiza desempeño en herramientas personalizadas.

La conclusión útil es esta: ADK Arena sugiere que el framework ya no es un detalle de implementación; es una variable que afecta costo, tasa de éxito y dificultad operativa desde el primer día.