La carrera de computer use se está moviendo de "mira cómo el modelo hace clic en un navegador" a una pregunta más dura: ¿puede correr donde vive el trabajo, con latencia aceptable y sin mandar cada pantalla a la nube?

H Company publicó Holo3.1 el 2 de junio de 2026 con una respuesta bastante directa. La familia trae modelos para computer use de 0.8B, 4B, 9B y 35B-A3B, más checkpoints cuantizados para despliegue local o edge. La colección está en Hugging Face y el quickstart de H Tech Hub apunta a usar esos pesos o la API según el caso.

El punto no es que todos deban cambiar su stack mañana. El punto es que computer use empieza a tener una ruta más creíble para equipos que no quieren depender de una sesión remota por cada acción visual.

Dashboard editorial con métricas de AndroidWorld, OSWorld y harnesses de ejecución para agentes de computer use

Qué cambió respecto al patrón típico

Holo3.1 no solo presume más score. El post técnico dice que el modelo fue ajustado para tres frentes que suelen romper agentes reales:

entornos distintos, incluyendo web, desktop y móvil;
harnesses distintos, no solo el stack de evaluación propio;
targets de despliegue, desde cloud hasta inferencia local.

Eso conecta con un dolor muy concreto. Un agente puede verse bien en una demo de navegador y fallar cuando aparece una app de escritorio vieja, una pantalla móvil, un modal raro o un framework de ejecución diferente. Holo3.1 intenta reducir ese salto con soporte nativo para protocolos de function calling además del output JSON estructurado que ya usaba Holo3.

La señal de benchmark también es útil si se lee sin hype. H Company reporta que el modelo 35B-A3B sube en AndroidWorld de 67% a 79.3%, mientras los modelos 4B y 9B pasan de 58% a 72%. También dice que function calling y ejecución nativa quedan cerca en rendimiento, y que el harness de Holotab mejora más de 25% frente a Holo3.

La parte local es la noticia

La novedad más importante para builders de Latinoamérica probablemente no es el modelo grande. Es la promesa de correr computer use de forma más privada y barata con FP8, Q4 GGUF y NVFP4.

Composición editorial con un agente local, checkpoints cuantizados y rutas edge/cloud para decidir dónde ejecutar computer use

El post dice que los checkpoints NVFP4 logran el mismo score OSWorld que FP8 y quedan unos dos puntos abajo del BF16 completo. También reporta que, sobre DGX Spark, NVFP4 W4A16 alcanza 1.41x el throughput total de FP8 y 1.74x el de BF16. Para ejecución de agente, H Company habla de una mejora compuesta cercana a 2x en tiempo end-to-end frente al baseline FP8.

Traducido: si estás construyendo un agente que mira pantallas, cada segundo cuenta. Un paso de computer use no es una llamada de texto barata; incluye captura, percepción, decisión, acción, espera y reintento. Reducir latencia en ese loop cambia la experiencia completa.

Cuándo sí lo probaría

Lo probaría si tienes uno de estos escenarios:

automatización interna sobre apps que no tienen API limpia;
QA visual de flujos web o desktop;
tareas móviles repetitivas con riesgo bajo;
entornos donde privacidad importa más que usar el modelo cloud más fuerte;
investigación sobre computer use que necesita comparar harnesses.

No lo pondría directo sobre producción con auto-aprobación. Un agente que puede operar una computadora necesita límites fuertes: apps permitidas, acciones bloqueadas, credenciales fuera de pantalla, logging de pasos y una regla simple de pausa cuando la pantalla no coincide con el estado esperado.

Esta nota conversa bien con Chrome 149 y WebMCP para verificar interfaces con agentes, porque ambos temas apuntan a lo mismo desde extremos distintos: un agente útil necesita ver, actuar y validar sin depender de magia. Si todavía te falta la base de tools y permisos, empieza por el curso gratis.

La conclusión corta: Holo3.1 no convierte computer use local en problema resuelto, pero sí baja una barrera real: modelos más pequeños, checkpoints cuantizados y mejor soporte de harnesses para que el agente corra más cerca del usuario.