xAI kündigte am 1. Juli die Einführung der Voice Agent Builder Beta an, einer vollständig codefreien KI-Sprachagenten-Erstellungsplattform, die es Nutzern ermöglicht, in 2 Minuten mit natürlichen Sprachhinweisen einen unternehmensgerechten Sprachagenten zu erstellen. Die Plattform verwendet einen eng an Grok Voice gekoppelten, durchgängigen Speech-to-Speech-Einzelsprachpfad und übertrifft GPT in Benchmarks.
(Quelle: xAI-Website)
Laut xAI belegt Grok Voice Think Fast 1.0 den ersten Platz im τ-voice Bench Sprachbenchmark-Ranking und übertrifft Google Gemini 3.1 Flash Live und OpenAI GPT Realtime 1.5 direkt in den beiden Metriken Reaktionsgeschwindigkeit und Argumentationsfähigkeit.
xAI erklärt, dass Grok Voice mit realen und als „am schwierigsten" konzipierten Gesprächsszenarien trainiert wird, darunter Telefonrauschen geringer Qualität, starke Akzente, Unterbrechungen durch den Benutzer und vage Anweisungen, und nativ über 25 Sprachen unterstützt.
xAI erklärt offiziell, dass herkömmliche KI-Sprachkundendienste für Unternehmen drei unabhängige Systeme – Spracherkennung (STT), Large Language Model (LLM) und Text-to-Speech (TTS) – verketten müssen. Diese zusammengebaute Architektur erhöht die Multi-Hop-Latenz sowie Fehlerrate und Betriebskosten.
Voice Agent Builder verwendet einen eng an Grok Voice gekoppelten, durchgängigen Speech-to-Speech-Einzelsprachpfad, bei dem der gesamte Sprachverarbeitungsablauf nicht segmentiert umgeschaltet wird, um Latenz zu reduzieren und Verkettungsfehler zu minimieren.
Laut der Funktionsbeschreibung von xAI sind die Spezifikationen der vier Kernfunktionsmodule des Voice Agent Builders wie folgt:
Wissensdatenbank (Knowledge Base): Unterstützt das Hochladen von Formaten wie Word, Excel, PDF, JSON, die in agentenübergreifend gemeinsam nutzbare Collections organisiert werden können, um Konsistenz bei Produktspezifikationen und Richtlinien sicherzustellen.
Tools & Connectors: Integriert Google/Outlook-Kalender, Websuche, X (Twitter)-Suche und Notion; unterstützt Weiterleitung an menschliche Agents, Gesprächsbeendigung und Echtzeit-Teambenachrichtigungen.
Sprache & Telefonie (Voice & Telephony): Bietet über 80 integrierte Stimmen; unterstützt Markensprachklon mit nur 2 Minuten Audiomaterial; kostenlose Bereitstellung von Telefonnummern durch xAI oder Anbindung bestehender Telefonanlagen über SIP.
Transparente Preisgestaltung (Pricing): Rechenleistungs-API-Kosten von 0,05 US-Dollar pro Minute, keine zusätzlichen Plattformgebühren; bei Nutzung der von xAI bereitgestellten Telefonnummern fallen zusätzlich 0,01 US-Dollar pro Minute Kommunikationsgebühren an.
Laut der offiziellen Ankündigung von xAI verfügt Voice Agent Builder über integrierte Überwachungsmechanismen (Observability) und Sicherheitsbarrieren (Guardrails) für Unternehmensnutzer: Jeder Anruf wird automatisch aufgezeichnet und transkribiert; Administratoren können jederzeit die von der KI im Gespräch verwendeten Tools einsehen; und es können strenge Dialoggrenzen festgelegt werden, z. B. das Verbot für die KI, Kreditkartennummern von Kunden vorzulesen oder mit dem Benutzer über unpassende politische Themen zu diskutieren.
xAI erklärte in der offiziellen Ankündigung: „Mit den Ohren zu beurteilen ist genauer als Benchmarks anzusehen – erstelle einen Agenten und ruf mit deinem schwierigsten Workflow an und probier es aus."
Laut der offiziellen Ankündigung von xAI betragen die Rechenleistungs-API-Kosten 0,05 US-Dollar pro Minute, ohne zusätzliche Plattformgebühren; bei Nutzung der von xAI kostenlos bereitgestellten Telefonnummern fallen zusätzlich 0,01 US-Dollar pro Minute Kommunikationsgebühren an.
Laut xAI übertrifft Grok Voice Think Fast 1.0 im τ-voice Bench Benchmark Google Gemini 3.1 Flash Live und OpenAI GPT Realtime 1.5 und belegt den ersten Platz im Ranking in den beiden Metriken Reaktionsgeschwindigkeit und Argumentationsfähigkeit.
Laut der offiziellen Ankündigung von xAI ist die Voice Agent Builder Beta offiziell auf der xAI Console verfügbar und zur Testnutzung freigegeben.
Related News
Solana-On-Chain-Governance-Mechanismus eingeführt, Vorschläge benötigen 15% Staking-Unterstützung, um zur Abstimmung zugelassen zu werden.
Claude Sonnet 5 ist gestartet, API-Preise sind 60 % günstiger als Opus.
6 KI-Browser fallen auf das Spiel „2+2=5“ herein, SSH-Zertifikate vollständig durchgesickert
Meituan LongCat-2.0 Open Source: 1,6 Billionen Parameter, keine NVIDIA GPU erforderlich.