OpenAI publicó el 27 de mayo de 2026 una historia de ingeniería con Thrive Holdings y Crete que conviene leer sin hype: Tax AI no mejora porque el modelo "aprende solo" en producción. Mejora porque el sistema captura correcciones de contadores, preserva trazas de producto, convierte errores repetidos en evals y le entrega a Codex tareas acotadas con evidencia.

Ese matiz importa. En el piloto, Tax AI procesó 7,000 declaraciones de impuestos 1040 y 1041 en firmas de Crete. OpenAI reporta que el sistema ahorra cerca de un tercio del tiempo de preparación, redacta returns con hasta 97% de precisión y elevó throughput alrededor de 50%. Pero la pieza más útil para builders no está en el porcentaje: está en el diseño del loop.

Tablero editorial con trazas, correcciones de expertos y evals agrupados antes de abrir una tarea para Codex

El loop en tres capas

La arquitectura que describe OpenAI tiene tres partes:

expertos que corrigen el trabajo real y separan fallos importantes de ruido esperado;
trazas que conservan el camino desde documentos fuente hasta campos extraídos, mapeos y revisión final;
tareas para Codex que investigan una falla repetida, modifican el producto y corren evals específicos más regresiones.

Eso evita una trampa común: mandar cada queja del usuario directo al agente. Una corrección puede ser un error de extracción, una preferencia del contador, un dato heredado del año anterior o una limitación todavía no soportada. Si no agrupas y calificas esos casos, el agente optimiza contra ruido.

Por qué esto sí sirve fuera de impuestos

La categoría buscable no es solo tax AI. Es self-improving agents, Codex evals, production traces, human feedback agents y agent improvement loop. La intención es muy cualificada: equipos que ya tienen agentes trabajando con datos reales y quieren que cada revisión humana alimente mejoras verificables.

El patrón aplica a soporte, compliance, análisis financiero, operaciones internas y cualquier dominio donde el experto corrige outputs antes de que lleguen al cliente. La diferencia entre un chatbot y un sistema serio es si esas correcciones se pierden en Slack o terminan como dataset, eval y tarea de ingeniería.

Flujo editorial de worktree, evals, skills y contexto read-only para que Codex corrija una falla de producción sin tocar evidencia

Checklist para copiar el patrón

Antes de llamar a un agente "auto-mejorable", revisaría esto:

¿capturas el antes, el después y la razón probable de cada corrección?
¿puedes reconstruir la traza completa de una decisión?
¿agrupas fallas repetidas antes de abrir trabajo?
¿cada tarea tiene eval objetivo y regresión?
¿el contexto de producción queda read-only para el agente?

El riesgo es vender aprendizaje continuo cuando solo hay prompts remendados. OpenAI muestra algo más exigente: un loop de mejora con humanos expertos, trazas legibles y validación antes de mezclar cambios.

Si estás en una etapa más temprana, el curso gratis ayuda a ordenar herramientas y memoria antes de llegar a este nivel. La conclusión práctica: Codex no reemplaza el juicio experto; lo vuelve una señal estructurada que puede convertirse en producto mejorado.