xAI lança versão Beta do Voice Agent Builder, teste de referência Grok Voice supera GPT

XAI4,74%
GROK3,29%

xAI anunciou a 1 de julho o lançamento da versão Beta do Voice Agent Builder, uma plataforma de criação de agentes de voz com IA totalmente sem código, que permite aos utilizadores construir agentes de voz de nível empresarial em 2 minutos através de instruções em linguagem natural; a plataforma utiliza um caminho de voz único de Speech-to-Speech de ponta a ponta, estreitamente acoplado ao Grok Voice, superando o GPT em testes de referência.

Teste de referência τ-voice Bench: Grok Voice Think Fast 1.0 supera o GPT

xAI AI語音代理建置平台 (Fonte: site da xAI)

De acordo com o anúncio oficial da xAI, o Grok Voice Think Fast 1.0 ocupa o primeiro lugar na classificação do teste de referência de voz τ-voice Bench, superando diretamente o Google Gemini 3.1 Flash Live e o OpenAI GPT Realtime 1.5 em dois indicadores: velocidade de resposta e capacidade de raciocínio.

A xAI explica que o Grok Voice foi treinado com cenários de chamadas reais e considerados «os mais difíceis», abrangendo ruído telefónico de baixa qualidade, sotaques fortes, interrupções do utilizador e instruções ambíguas, suportando nativamente mais de 25 idiomas.

Arquitetura Speech-to-Speech de ponta a ponta: caminho de voz único substitui a arquitetura tradicional STT+LLM+TTS

A xAI explica que o atendimento ao cliente por voz com IA tradicional nas empresas requer a ligação de três sistemas independentes: conversão de voz em texto (STT), modelo de linguagem de grande escala (LLM) e conversão de texto em voz (TTS). Esta arquitetura de montagem aumenta a latência de múltiplos saltos, bem como as taxas de erro e os custos operacionais.

O Voice Agent Builder utiliza um caminho de voz único de Speech-to-Speech de ponta a ponta, estreitamente acoplado ao Grok Voice, onde todo o processo de processamento de voz não é segmentado, visando reduzir a latência e os erros de encadeamento.

Base de conhecimento, ferramentas de integração, clonagem de voz e acesso telefónico: quatro funcionalidades principais

De acordo com a descrição funcional oficial da xAI, as quatro principais funcionalidades do Voice Agent Builder são as seguintes:

Base de conhecimento (Knowledge Base): suporta o carregamento de formatos como Word, Excel, PDF e JSON, podendo ser organizada em Coleções partilhadas entre agentes, garantindo consistência nas especificações de produtos e políticas.

Ferramentas e integrações (Tools & Connectors): inclui calendário Google/Outlook, pesquisa web, pesquisa X (Twitter) e Notion; suporta transferência para atendente humano, finalização de chamadas e notificações de equipa em tempo real.

Voz e telefonia (Voice & Telephony): oferece mais de 80 vozes integradas; suporta clonagem de voz de marca com apenas 2 minutos de áudio; é possível obter um número de telefone gratuito fornecido pela xAI ou integrar o sistema PABX existente via SIP.

Preços transparentes (Pricing): a taxa da API de computação é de 0,05 dólares por minuto, sem taxas de plataforma adicionais; ao utilizar o número de telefone fornecido pela xAI, é cobrada uma taxa de comunicação adicional de 0,01 dólares por minuto.

Mecanismo de segurança empresarial: gravação automática com transcrição, registo de utilização de ferramentas e definição de limites de conversação

De acordo com o anúncio oficial da xAI, o Voice Agent Builder inclui mecanismos de monitorização (Observability) e salvaguardas de segurança (Guardrails) para utilizadores empresariais: cada chamada é automaticamente gravada e é gerada uma transcrição; os administradores podem verificar a qualquer momento o registo das ferramentas utilizadas pela IA durante a chamada; e é possível definir limites rigorosos para a conversação, como proibir a IA de ler o número do cartão de crédito do cliente ou de discutir tópicos políticos não relacionados.

A xAI afirmou no comunicado oficial: «Ouvir com os ouvidos é mais preciso do que olhar para os testes de referência — crie um agente e ligue para o seu fluxo de trabalho mais difícil para experimentar.»

Perguntas frequentes

Quanto custa a computação do xAI Voice Agent Builder?

De acordo com o anúncio oficial da xAI, a taxa da API de computação é de 0,05 dólares por minuto, sem taxas de plataforma adicionais; ao utilizar o número de telefone gratuito fornecido pela xAI, é cobrada uma taxa de comunicação adicional de 0,01 dólares por minuto.

Qual foi o desempenho do Grok Voice Think Fast 1.0 no τ-voice Bench?

De acordo com o anúncio oficial da xAI, o Grok Voice Think Fast 1.0 superou o Google Gemini 3.1 Flash Live e o OpenAI GPT Realtime 1.5 no teste de referência τ-voice Bench, ocupando o primeiro lugar na classificação nos dois indicadores: velocidade de resposta e capacidade de raciocínio.

Onde posso experimentar o xAI Voice Agent Builder atualmente?

De acordo com o anúncio oficial da xAI, a versão Beta do Voice Agent Builder já está disponível na xAI Console para experimentação.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário