xAI 1 липня оголосила про запуск бета-версії Voice Agent Builder — повністю безкодової платформи для створення голосових AI-агентів. Користувачі можуть створити корпоративний голосовий агент за допомогою природномовних підказок менш ніж за 2 хвилини. Платформа використовує наскрізний єдиний голосовий шлях Speech-to-Speech, тісно інтегрований з Grok Voice, і перевершує GPT за бенчмарками.
(Джерело: веб-сайт xAI)
Згідно з офіційними даними xAI, Grok Voice Think Fast 1.0 посідає перше місце в рейтингу голосових бенчмарків τ-voice Bench, безпосередньо перевершуючи Google Gemini 3.1 Flash Live та OpenAI GPT Realtime 1.5 за показниками швидкості відповіді та здатності до міркувань.
xAI пояснює, що Grok Voice навчався на реальних і спеціально розроблених «найскладніших» сценаріях дзвінків, включаючи низькоякісний телефонний шум, сильний акцент, переривання користувача та нечіткі команди, і нативно підтримує понад 25 мов.
Офіційні джерела xAI пояснюють, що традиційне корпоративне AI-голосове обслуговування вимагає послідовного з'єднання трьох незалежних систем: перетворення мови в текст (STT), великої мовної моделі (LLM) і перетворення тексту в мову (TTS). Така збірна архітектура збільшує затримку на кількох етапах, а також підвищує рівень помилок і операційні витрати.
Voice Agent Builder використовує наскрізний єдиний голосовий шлях Speech-to-Speech, тісно інтегрований з Grok Voice. Весь процес обробки голосу не розбивається на сегменти, що має на меті зменшити затримку та помилки з'єднання.
Відповідно до офіційного опису функцій xAI, чотири основні функціональні модулі Voice Agent Builder мають такі характеристики:
База знань (Knowledge Base): підтримує завантаження файлів Word, Excel, PDF, JSON тощо, які можна організувати в колекції (Collections) для спільного використання між агентами, забезпечуючи узгодженість специфікацій продукту та політик.
Інтеграція інструментів (Tools & Connectors): вбудовані календарі Google/Outlook, веб-пошук, пошук X (Twitter) та Notion; підтримує переадресацію на живого оператора, завершення дзвінка та миттєві сповіщення команди.
Голос і телефонія (Voice & Telephony): понад 80 вбудованих голосів; підтримує клонування брендового голосу лише за 2 хвилини аудіо; можливість безкоштовно отримати номер телефону від xAI або підключити існуючу АТС через SIP.
Прозоре ціноутворення (Pricing): плата за API обчислень становить 0,05 долара за хвилину, без додаткових платформних зборів; при використанні номера телефону, наданого xAI, стягується додаткова плата за зв'язок у розмірі 0,01 долара за хвилину.
Згідно з офіційним повідомленням xAI, Voice Agent Builder має вбудовані механізми моніторингу (Observability) та захисні бар'єри (Guardrails) для корпоративних користувачів: кожен дзвінок автоматично записується та створюється розшифровка; адміністратори можуть у будь-який час переглядати журнал використання інструментів AI під час розмови; а також можна встановлювати суворі межі діалогу, наприклад, примусово забороняти AI озвучувати номер кредитної картки клієнта або обговорювати з користувачем недоречні політичні теми.
xAI заявляє в офіційному повідомленні: «Оцінювати на слух точніше, ніж дивитися на бенчмарки – створіть агента і зателефонуйте йому, використовуючи ваш найскладніший робочий процес.»
Згідно з офіційним повідомленням xAI, плата за API обчислень становить 0,05 долара за хвилину, без додаткових платформних зборів; при використанні безкоштовного номера телефону, наданого xAI, стягується додаткова плата за зв'язок у розмірі 0,01 долара за хвилину.
Згідно з офіційними даними xAI, Grok Voice Think Fast 1.0 перевершує Google Gemini 3.1 Flash Live та OpenAI GPT Realtime 1.5 у бенчмарку τ-voice Bench, посідаючи перше місце в рейтингу за показниками швидкості відповіді та здатності до міркувань.
Згідно з офіційним повідомленням xAI, бета-версія Voice Agent Builder вже доступна в xAI Console для тестування.
Пов’язані новини
На Solana запущено механізм ончейн-управління, пропозиції потребують 15% підтримки стейкінгу для переходу до голосування.
Claude Sonnet 5 запущено, ціна API на 60% дешевша, ніж Opus
6 моделей AI-браузерів ошукано грою «2+2=5», усі SSH-сертифікати витекли
Meituan LongCat-2.0 відкритий код: 1,6 трильйона параметрів без GPU NVIDIA