Step Audio 2,5 Realtime est sorti : score subjectif 80,41, écrase GPT-Realtime-1.5 de 18 %, les appels vocaux coûtent 3,8 yuan/heure

Selon Beating, Step Audio 2.5 Realtime, un modèle vocal temps réel de bout en bout de Step Cosmos, a été lancé sur son API de plateforme ouverte en avril 2026. Le modèle met l’accent sur des conversations naturelles, avec des personas de personnage personnalisables et une perception paralinguistique (ton, pauses, soupirs).

Lors de tests officiels portant sur cinq dimensions, Step Audio 2.5 Realtime s’est classé premier dans toutes les catégories. Le score d’évaluation subjective (conversations dans l’application téléphonique utilisée par de vrais utilisateurs) a atteint 80,41, contre 68,01 pour GPT-Realtime-1.5 et 67,16 pour Gemini Live. Le benchmark Voice Q&A a obtenu 79,80, soit près de 1,5 fois le score de 53,20 de GPT-Realtime-1.5. Tarification API : 10 yuans pour un million de jetons d’entrée (2 yuans en cas de succès de cache), 70 yuans pour un million de jetons de sortie, avec des appels vocaux continus estimés à 3,8 yuans par heure.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire