Google presentó Gemini 3.1 Flash TTS el 15 de abril de 2026 y mantiene en Gemini API una guía específica para generar audio de una o dos voces. La noticia no debería leerse como “Gemini ya habla”. Gemini Live API ya cubre experiencias conversacionales. La parte útil es otra: TTS sirve cuando el agente necesita decir exactamente un texto, con estilo controlado y salida reproducible.

Ese matiz importa para builders. No todo agente de voz necesita conversación libre en tiempo real. A veces necesitas confirmaciones, resúmenes, guiones de capacitación, mensajes de soporte, narraciones internas o respuestas que deben sonar naturales sin improvisar el contenido.

Flujo editorial de un agente que convierte guiones aprobados en audio TTS y separa narración controlada de conversación en vivo

TTS no reemplaza Live API

La propia documentación de Google separa los casos. Live API está pensada para interacción dinámica, multimodal y conversacional. Text-to-Speech está pensado para recitar texto exacto con control fino de estilo, acento, ritmo y tono.

Esa separación evita un error común: usar una API conversacional para todo solo porque suena más “agentic”. Si el contenido ya pasó por aprobación, o si el sistema necesita leer instrucciones, un modelo TTS puede ser más simple, auditable y consistente.

Qué aporta Gemini 3.1 Flash TTS

Google dice que Gemini 3.1 Flash TTS mejora control, expresividad y calidad, con audio tags para dirigir estilo, ritmo y entrega mediante lenguaje natural. También habla de soporte para más de 70 idiomas y marca de agua SynthID para audio generado.

La página del modelo lo posiciona como una opción de baja latencia para speech generation, con entrada de texto y salida de audio. No es un modelo para function calling, grounding o tool use. Eso es bueno: obliga a ubicarlo como una pieza del pipeline, no como cerebro completo del agente.

Dónde sí cambia un workflow de agentes

Yo lo pondría en tres lugares.

Primero, mensajería con audio. Un agente de WhatsApp o soporte puede preparar una respuesta textual, pasarla por revisión de tono o políticas, y luego convertirla a audio cuando el canal lo justifique.

Segundo, operaciones internas. Resúmenes de incidentes, cambios de agenda, instrucciones de campo o handoffs pueden convertirse en audio estructurado sin depender de que el agente improvise voz en vivo.

Tercero, contenido educativo y onboarding. Agente IA puede usar este patrón para lecciones, cápsulas o guías donde importa que el texto sea exacto y reutilizable.

Panel editorial de controles de voz, watermark SynthID y revisión previa antes de publicar audio generado por Gemini TTS

La parte de dos voces es más práctica de lo que parece

La guía de Gemini API muestra generación single-speaker y multi-speaker. Para agentes, dos voces no deberían usarse como truco de podcast automático sin edición. Su mejor uso es estructural:

agente y supervisor;
cliente y soporte;
narrador y checklist;
explicación y objeción;
o simulación de entrenamiento.

En esos casos, el audio no reemplaza el diseño conversacional. Lo hace más claro para el usuario.

Riesgos antes de ponerlo en producción

Primero, TTS está en preview, así que conviene diseñar fallback.

Segundo, audio generado puede sonar convincente incluso cuando el texto está mal. La revisión debe ocurrir antes de sintetizar.

Tercero, SynthID ayuda con procedencia, pero no sustituye transparencia de producto. Si el usuario escucha una voz generada, el sistema debe ser claro con eso.

Cuarto, un agente de voz en soporte necesita logs de texto, no solo archivos de audio. La auditoría debe guardar prompt final, fuente de datos, versión del modelo y salida generada.

Si estás empezando, no saltes directo a voz. Primero arma el loop de herramientas y validación con el curso gratis. Luego decide si tu caso pide Live API, TTS o una mezcla: Live para conversación abierta, TTS para guiones exactos y aprobados.

La lectura corta: Gemini TTS es valioso porque separa voz controlada de conversación en vivo; esa separación evita que los agentes de voz se vuelvan cajas negras difíciles de auditar.