O Google lança o Gemini 3.1 Flash TTS: suporta 70 idiomas e cenários com diretores, a voz de IA fica mais natural

O responsável por relações com desenvolvedores de IA da Google, Logan Kilpatrick, anunciou em 15 de abril o lançamento do Gemini 3.1 Flash TTS — o modelo mais recente de texto para fala da Google. Este modelo oferece suporte a 70 idiomas, controle refinado no nível do diretor de cena (scene direction), do falante e marcações de áudio; no momento, já está disponível para uso no playground de áudio do Google AI Studio e na Gemini API.

Quatro recursos centrais

O Gemini 3.1 Flash TTS, em comparação com a geração anterior, traz quatro melhorias notáveis:

Diretor de cena (Scene Direction) — é possível definir contextos para a voz, como “falar baixinho em um café barulhento” ou “anunciar empolgado uma boa notícia”; o modelo ajusta o tom, a velocidade de fala e a emoção de acordo com o cenário

Controle no nível do falante (Speaker-Level Specificity) — em diálogos com múltiplos personagens, é possível definir características de voz diferentes para cada personagem

Marcações de áudio (Audio Tags) — suporta inserir comandos de efeitos sonoros no texto, controlando detalhes como pausas e variações de entonação

Suporte a 70 idiomas — amplia significativamente a cobertura multilíngue, incluindo chinês

Voz mais natural e expressiva

O Google destaca os avanços deste modelo em naturalidade de voz. Modelos tradicionais de TTS costumam ter sua saída criticada como “soando como IA”. O Gemini 3.1 Flash TTS tenta reduzir a distância em relação à fala humana por meio de variações de prosódia e expressões emocionais mais ricas. Kilpatrick apontou que o progresso do Gemini 2.5 para o 3.1 é “bem significativo”.

Como os desenvolvedores podem usar

Os desenvolvedores podem usar de duas maneiras:

Google AI Studio Audio Playground — testar e pré-visualizar diretamente na interface da web

Gemini API — integrar em aplicativos para casos como assistentes de voz, audiolivros, geração automática de Podcast, atendimento ao cliente multilíngue etc.

A linha de produtos Gemini continua se expandindo

O Flash TTS faz parte de uma fase recente de lançamentos intensivos da série Gemini 3.1. Antes disso, a Google já havia lançado o Gemini Robotics ER 1.6 (raciocínio visual de robôs), o Tab Tab Tab (complemento de prompt do Vibe Coding) e funções como pré-visualização de design. A Google está expandindo o Gemini de “modelo de chat” para uma plataforma de IA multimodal completa que engloba texto, voz, visão e robôs.

Este artigo “A Google lança o Gemini 3.1 Flash TTS: suporte a 70 idiomas e direção de cena, voz de IA mais natural” apareceu pela primeira vez em Cadeia News ABMedia.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários