Gemini TTS abre otra capa para agentes de voz: texto exacto, dos voces y controles que no son Live API
Google presentó Gemini 3.1 Flash TTS y mantiene la guía de Text-to-Speech en Gemini API para audio de una o dos voces. Para builders, la decisión práctica es separar narración controlada de conversaciones Live API.

Por qué importa
Esta nota se enfoca en la decisión práctica para builders: qué cambia, qué riesgo agrega y cómo aplicarlo sin romper operación.
Google presentó Gemini 3.1 Flash TTS el 15 de abril de 2026 y mantiene en Gemini API una guía específica para generar audio de una o dos voces. La noticia no debería leerse como “Gemini ya habla”. Gemini Live API ya cubre experiencias conversacionales. La parte útil es otra: TTS sirve cuando el agente necesita decir exactamente un texto, con estilo controlado y salida reproducible.
Ese matiz importa para builders. No todo agente de voz necesita conversación libre en tiempo real. A veces necesitas confirmaciones, resúmenes, guiones de capacitación, mensajes de soporte, narraciones internas o respuestas que deben sonar naturales sin improvisar el contenido.

TTS no reemplaza Live API
La propia documentación de Google separa los casos. Live API está pensada para interacción dinámica, multimodal y conversacional. Text-to-Speech está pensado para recitar texto exacto con control fino de estilo, acento, ritmo y tono.
Esa separación evita un error común: usar una API conversacional para todo solo porque suena más “agentic”. Si el contenido ya pasó por aprobación, o si el sistema necesita leer instrucciones, un modelo TTS puede ser más simple, auditable y consistente.
Qué aporta Gemini 3.1 Flash TTS
Google dice que Gemini 3.1 Flash TTS mejora control, expresividad y calidad, con audio tags para dirigir estilo, ritmo y entrega mediante lenguaje natural. También habla de soporte para más de 70 idiomas y marca de agua SynthID para audio generado.
La página del modelo lo posiciona como una opción de baja latencia para speech generation, con entrada de texto y salida de audio. No es un modelo para function calling, grounding o tool use. Eso es bueno: obliga a ubicarlo como una pieza del pipeline, no como cerebro completo del agente.
Dónde sí cambia un workflow de agentes
Yo lo pondría en tres lugares.
Primero, mensajería con audio. Un agente de WhatsApp o soporte puede preparar una respuesta textual, pasarla por revisión de tono o políticas, y luego convertirla a audio cuando el canal lo justifique.
Segundo, operaciones internas. Resúmenes de incidentes, cambios de agenda, instrucciones de campo o handoffs pueden convertirse en audio estructurado sin depender de que el agente improvise voz en vivo.
Tercero, contenido educativo y onboarding. Agente IA puede usar este patrón para lecciones, cápsulas o guías donde importa que el texto sea exacto y reutilizable.

La parte de dos voces es más práctica de lo que parece
La guía de Gemini API muestra generación single-speaker y multi-speaker. Para agentes, dos voces no deberían usarse como truco de podcast automático sin edición. Su mejor uso es estructural:
- agente y supervisor;
- cliente y soporte;
- narrador y checklist;
- explicación y objeción;
- o simulación de entrenamiento.
En esos casos, el audio no reemplaza el diseño conversacional. Lo hace más claro para el usuario.
Demanda y hueco competitivo
No hay tooling SEO en esta corrida, así que la demanda se califica por señales actuales: blog oficial de Google, documentación de Gemini API, páginas de modelo actualizadas y búsquedas técnicas como Gemini TTS API, Gemini text to speech, multi speaker TTS Gemini, voice agents Gemini API y Live API vs TTS.
En español, el hueco es explicar cuándo usar TTS controlado y cuándo usar voz conversacional en vivo. Mucha cobertura mete todo en “agentes de voz”; el builder necesita decidir superficie, latencia, revisión y costo.
Riesgos antes de ponerlo en producción
Primero, TTS está en preview, así que conviene diseñar fallback.
Segundo, audio generado puede sonar convincente incluso cuando el texto está mal. La revisión debe ocurrir antes de sintetizar.
Tercero, SynthID ayuda con procedencia, pero no sustituye transparencia de producto. Si el usuario escucha una voz generada, el sistema debe ser claro con eso.
Cuarto, un agente de voz en soporte necesita logs de texto, no solo archivos de audio. La auditoría debe guardar prompt final, fuente de datos, versión del modelo y salida generada.
Si estás empezando, no saltes directo a voz. Primero arma el loop de herramientas y validación con el curso gratis. Luego decide si tu caso pide Live API, TTS o una mezcla: Live para conversación abierta, TTS para guiones exactos y aprobados.
La lectura corta: Gemini TTS es valioso porque separa voz controlada de conversación en vivo; esa separación evita que los agentes de voz se vuelvan cajas negras difíciles de auditar.