人工智能初創公司aiOla推出了一项能够革命ально підвищити точність розпізнавання мови новим рішенням. Ця компанія випустила систему “Голосовий інтелектуальний шлюз”, яка може в реальному часі аналізувати голос користувача та автоматично підключатися до найвідповіднішої моделі розпізнавання мови. Система шляхом динамічного визначення складних мовних характеристик обирає модель, здатну забезпечити найкращу точність обробки.
Минулого року aiOla опублікувала “DRAX” — голосовий AI-модель, яка подолала обмеження традиційного розпізнавання мови за допомогою технології паралельного потокового навчання. DRAX може одночасно обробляти всі висловлювання і демонструє високі показники у складних умовах, таких як шумове середовище, інтонація тощо. Ґрунтуючись на цій технології, нова розробка “QUASAR” автоматично обирає найвідповіднішу модель з багатьох автоматичних систем розпізнавання мови, аналізуючи особливості голосу, інтонацію мовця, наявність шуму, контекст тощо.
Хоча на ринку голосового AI вже присутні кілька провайдерів ASR, таких як Whisper від OpenAI, Transcribe від Amazon, Qwen2 від Alibaba та Deepgram, більшість компаній все ще використовують одну модель, яка показує найкращі результати у стандартних оцінюваннях. Це спричиняє часті помилки розпізнавання у реальних умовах, що негативно впливає на досвід користувачів.
Співзасновник та президент aiOla Амір Хараматі зазначив, що компанії змушені миритися з недоліками окремих моделей ASR: “Деякі моделі чудово працюють з американською англійською, але часто безсилі у британській інтонації або шумних умовах.” Він підкреслив: “QUASAR — перша система, яка розглядає розпізнавання мови як динамічну задачу, а не статичну технологію.”
Внутрішні бенчмарки aiOla показали, що ця система у 88.8% випадків може динамічно обирати найкращий ASR-двигун для підвищення точності. Очікується, що ця технологія значно покращить розуміння людсько-комп’ютерних діалогів у сферах підтримки клієнтів, ведення протоколів зустрічей, автоматичних систем відповідей тощо.
Хараматі зазначив: “Зі зростанням ролі розпізнавання мови як базового інтерфейсу між людиною та AI, помилки у розпізнаванні стають неприпустимими.” Він назвав QUASAR “технологією, яка перетворює ASR у живу інфраструктуру” і додав: “Це не лише технологічний прорив, а й зміна, яка може вплинути на глобальні кол-центри, що обробляють мільярди дзвінків, та незалежних розробників, що створюють субтитри.”