OpenAI muestra Tax AI con Codex: el agente que mejora no aprende de magia, aprende de trazas y evals
OpenAI y Thrive explicaron cómo construyeron Tax AI para Crete: correcciones de contadores, trazas de producción y tareas acotadas para Codex. La lección para builders es diseñar el loop de mejora antes de pedir autonomía.

Por qué importa
Esta nota se enfoca en la decisión práctica para builders: qué cambia, qué riesgo agrega y cómo aplicarlo sin romper operación.
OpenAI publicó el 27 de mayo de 2026 una historia de ingeniería con Thrive Holdings y Crete que conviene leer sin hype: Tax AI no mejora porque el modelo "aprende solo" en producción. Mejora porque el sistema captura correcciones de contadores, preserva trazas de producto, convierte errores repetidos en evals y le entrega a Codex tareas acotadas con evidencia.
Ese matiz importa. En el piloto, Tax AI procesó 7,000 declaraciones de impuestos 1040 y 1041 en firmas de Crete. OpenAI reporta que el sistema ahorra cerca de un tercio del tiempo de preparación, redacta returns con hasta 97% de precisión y elevó throughput alrededor de 50%. Pero la pieza más útil para builders no está en el porcentaje: está en el diseño del loop.

El loop en tres capas
La arquitectura que describe OpenAI tiene tres partes:
- expertos que corrigen el trabajo real y separan fallos importantes de ruido esperado;
- trazas que conservan el camino desde documentos fuente hasta campos extraídos, mapeos y revisión final;
- tareas para Codex que investigan una falla repetida, modifican el producto y corren evals específicos más regresiones.
Eso evita una trampa común: mandar cada queja del usuario directo al agente. Una corrección puede ser un error de extracción, una preferencia del contador, un dato heredado del año anterior o una limitación todavía no soportada. Si no agrupas y calificas esos casos, el agente optimiza contra ruido.
Por qué esto sí sirve fuera de impuestos
La categoría buscable no es solo tax AI. Es self-improving agents, Codex evals, production traces, human feedback agents y agent improvement loop. La intención es muy cualificada: equipos que ya tienen agentes trabajando con datos reales y quieren que cada revisión humana alimente mejoras verificables.
El patrón aplica a soporte, compliance, análisis financiero, operaciones internas y cualquier dominio donde el experto corrige outputs antes de que lleguen al cliente. La diferencia entre un chatbot y un sistema serio es si esas correcciones se pierden en Slack o terminan como dataset, eval y tarea de ingeniería.

Checklist para copiar el patrón
Antes de llamar a un agente "auto-mejorable", revisaría esto:
- ¿capturas el antes, el después y la razón probable de cada corrección?
- ¿puedes reconstruir la traza completa de una decisión?
- ¿agrupas fallas repetidas antes de abrir trabajo?
- ¿cada tarea tiene eval objetivo y regresión?
- ¿el contexto de producción queda read-only para el agente?
El riesgo es vender aprendizaje continuo cuando solo hay prompts remendados. OpenAI muestra algo más exigente: un loop de mejora con humanos expertos, trazas legibles y validación antes de mezclar cambios.
Si estás en una etapa más temprana, el curso gratis ayuda a ordenar herramientas y memoria antes de llegar a este nivel. La conclusión práctica: Codex no reemplaza el juicio experto; lo vuelve una señal estructurada que puede convertirse en producto mejorado.