O Google lança o Gemini 3.1 Flash TTS: suporta 70 idiomas e cenários com diretores, a voz de IA fica mais natural

2026-04-16 00:43:52

O responsável por relações com desenvolvedores de IA da Google, Logan Kilpatrick, anunciou em 15 de abril o lançamento do Gemini 3.1 Flash TTS — o modelo mais recente de texto para fala da Google. Este modelo oferece suporte a 70 idiomas, controle refinado no nível do diretor de cena (scene direction), do falante e marcações de áudio; no momento, já está disponível para uso no playground de áudio do Google AI Studio e na Gemini API.

Quatro recursos centrais

O Gemini 3.1 Flash TTS, em comparação com a geração anterior, traz quatro melhorias notáveis:

Diretor de cena (Scene Direction) — é possível definir contextos para a voz, como “falar baixinho em um café barulhento” ou “anunciar empolgado uma boa notícia”; o modelo ajusta o tom, a velocidade de fala e a emoção de acordo com o cenário

Controle no nível do falante (Speaker-Level Specificity) — em diálogos com múltiplos personagens, é possível definir características de voz diferentes para cada personagem

Marcações de áudio (Audio Tags) — suporta inserir comandos de efeitos sonoros no texto, controlando detalhes como pausas e variações de entonação

Suporte a 70 idiomas — amplia significativamente a cobertura multilíngue, incluindo chinês

Voz mais natural e expressiva

O Google destaca os avanços deste modelo em naturalidade de voz. Modelos tradicionais de TTS costumam ter sua saída criticada como “soando como IA”. O Gemini 3.1 Flash TTS tenta reduzir a distância em relação à fala humana por meio de variações de prosódia e expressões emocionais mais ricas. Kilpatrick apontou que o progresso do Gemini 2.5 para o 3.1 é “bem significativo”.

Como os desenvolvedores podem usar

Os desenvolvedores podem usar de duas maneiras:

Google AI Studio Audio Playground — testar e pré-visualizar diretamente na interface da web

Gemini API — integrar em aplicativos para casos como assistentes de voz, audiolivros, geração automática de Podcast, atendimento ao cliente multilíngue etc.

A linha de produtos Gemini continua se expandindo

O Flash TTS faz parte de uma fase recente de lançamentos intensivos da série Gemini 3.1. Antes disso, a Google já havia lançado o Gemini Robotics ER 1.6 (raciocínio visual de robôs), o Tab Tab Tab (complemento de prompt do Vibe Coding) e funções como pré-visualização de design. A Google está expandindo o Gemini de “modelo de chat” para uma plataforma de IA multimodal completa que engloba texto, voz, visão e robôs.

Este artigo “A Google lança o Gemini 3.1 Flash TTS: suporte a 70 idiomas e direção de cena, voz de IA mais natural” apareceu pela primeira vez em Cadeia News ABMedia.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.

A X de Musk impulsiona a Smart Tag, movimentando US$ 1 bilhão em volume de transações globais em 3 dias

Market Whisper04-20 06:32

Vitalik confirma palestra em Hong Kong, com aplicativos de foco central em IA e ecossistemas ZK da Ethereum

Market Whisper04-20 01:42

A Canva anunciou uma integração profunda com o Claude, permitindo transformar rascunhos de IA em peças de design prontas

ChainNewsAbmedia04-19 20:04

Realidade dos Agentes de IA do Vale do Silício: desperdício massivo de tokens, integração de sistemas “extremamente caótica”; a previsão de Huang Renxun sobre o “próximo ChatGPT” ainda precisa ser verificada

ChainNewsAbmedia04-19 14:15

O relatório anual do Google afirma que o Gemini realiza detecção em milissegundos, bloqueando 99% dos anúncios de golpes

ChainNewsAbmedia04-18 16:15

Comentário

0/400

Sem comentários