Uno de los problemas más viejos de los benchmarks para agentes web es que envejecen mal. Cuando las páginas cambian, una parte del score deja de medir capacidad y empieza a medir qué tan viejo quedó el benchmark.

Microsoft intentó corregir eso con WebTailBench V2. En la tarjeta oficial del dataset, la actualización del 12 de mayo de 2026 dice algo simple pero importante: refrescaron los textos de tarea y las rúbricas precomputadas para toda la suite de 609 pruebas, preservando V1 pero dejando test_v2 como split recomendado.

La lectura útil no es “hay otro benchmark”. La lectura útil es otra: si quieres comparar agentes de computer use con algo más serio que una demo, necesitas tareas que sigan pareciéndose al web actual.

Composición editorial con una mesa de evaluación, tareas web reales y verificación por rúbricas para agentes de computer use

Qué mide y por qué sí importa

La ficha del dataset deja bastante claro que WebTailBench está intentando cubrir huecos reales de benchmarks anteriores.

El set principal agrupa 609 tareas verificadas a mano en once categorías, incluyendo:

vuelos;
hoteles;
restaurantes;
ticketing;
bienes raíces;
empleos;
shopping list;
comparison shopping;
y tareas composicionales.

Ese detalle sí cambia la película. Muchas suites para agentes web siguen demasiado cargadas hacia navegación genérica o tareas medio artificiales. WebTailBench apunta a otra cosa: trabajo web que se parece a lo que un usuario de verdad pediría.

La propia tarjeta del dataset lo dice sin rodeos: quiere cubrir mejor tareas subrepresentadas como reservas, búsqueda de empleo y comparaciones entre sitios.

Qué trae de nuevo V2

La nota de refresh enumera tres pistas útiles.

Primero, V2 actualiza la suite completa para que no quede atrapada en el corte temporal anterior. Segundo, mantiene los mismos 609 pares de benchmark e identificador, así que puedes comparar V1 y V2 sin rehacer toda tu tubería. Tercero, deja un split recomendado explícito para que la comunidad deje de mezclar tareas frescas con tareas viejas sin darse cuenta.

Eso parece un ajuste menor, pero para evaluación agentic es bastante importante. Un benchmark que no se puede refrescar termina sesgando decisiones sobre:

modelos;
harnesses;
y costos por tarea.

La conexión práctica con Fara-7B

Microsoft no soltó WebTailBench como pieza aislada. La página del paper de Fara-7B y la model card lo usan como una de las bases para evaluar computer use.

Ahí aparece otra señal útil: en la model card, Microsoft reporta para Fara-7B resultados sobre WebVoyager, Online-Mind2Web, DeepShop y WebTailBench, además de insistir en que el modelo es pequeño, local y pensado para tareas de web reales.

Lo que este benchmark todavía no resuelve

Tampoco conviene venderlo como vara definitiva.

Un benchmark mejor no elimina tres riesgos clásicos:

que el agente rinda bien en suite pública y mal en tu dominio;
que la web cambie otra vez y toque refrescar;
que el costo operativo real se dispare fuera del entorno controlado.

Además, medir éxito por tarea no basta si ignoras cosas como:

acciones inválidas;
pasos desperdiciados;
y seguridad frente a prompt injection o acciones sensibles.

Por eso esta noticia conversa bien con Open Agent Leaderboard: uno mejora la comparación de sistemas completos, y el otro mejora la calidad del terreno donde pruebas computer use web.

Cómo lo usaría un builder serio

Si hoy estás comparando agentes para navegador, yo haría esto:

usaría V2 y no V1 como referencia principal;
separaría resultados por categoría, no solo score global;
mediría también costo, pasos y necesidad de supervisión humana;
y luego contrastaría eso con tareas privadas de tu producto.

Si todavía estás armando la base antes de meterte a computer use, el punto de entrada correcto sigue siendo el curso gratis. Pero si ya estás evaluando agentes que buscan empleo, reservan, comparan precios o recorren varios sitios, WebTailBench V2 sí merece un lugar en tu caja de herramientas.

Mi lectura corta es esta: WebTailBench V2 importa porque refresca el benchmark hacia tareas web que todavía se sienten vivas y comparables, en vez de dejar que el score se pudra junto con las páginas.