Thinking Machines запускает модель взаимодействия с откликом 200 мс, опережая GPT-Realtime-2.0

Согласно Beating, Thinking Machines, лаборатории, основанной бывшим CTO OpenAI Мирой Мюрати, выпустила предварительную версию исследования своей Interaction-модели, включающей нативную обработку аудио и видео в реальном времени с микро-ответами на 200 миллисекунд. Модель позволяет одновременно слушать, смотреть и говорить, поддерживая прерывания со стороны пользователя в реальном времени.

Модель TML-Interaction-Small использует архитектуру MoE с 276 миллиардами параметров, при этом активируется 12 миллиардов параметров на один вывод. Официальные данные показывают задержку распознавания смены реплик речи 0,40 секунды и результат FD-bench V1.5 77,8 — оба показателя превышают GPT-Realtime-2.0 и Gemini 3.1 Flash Live. Ограниченный доступ к превью планируется в ближайшие месяцы.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев