Xiaomi Membuka-Sumber OmniVoice, Model Kloning Suara Zero-Shot yang Mendukung 646 Bahasa

Menurut Beating, tim Kaldi di AI Lab Xiaomi telah merilis open-source OmniVoice, model TTS cloning suara zero-shot yang mendukung 646 bahasa. Model ini meniru karakteristik suara hanya dari beberapa detik audio referensi dan bekerja lintas bahasa—satu suara dapat mensintesis ucapan dalam bahasa Mandarin, Jepang, Korea, dan bahasa lainnya. Semua kode, bobot, dan data pelatihan dirilis open-source di bawah lisensi Apache-2.0.

OmniVoice memakai arsitektur yang disederhanakan dengan satu Transformer bidirectional yang langsung memetakan teks ke token akustik diskrit, sehingga mencapai inferensi 40x lebih cepat dari real-time di PyTorch. Dilatih dengan 580.000 jam audio dari 50 kumpulan data open-source, OmniVoice mengungguli sistem komersial dalam kemiripan suara dan keterpahaman di 24 bahasa yang diuji serta menyamai atau melampaui rekaman manusia di 102 bahasa.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar