Sau khi Microsoft phát hành mô hình tạo ảnh MAI-Image-2 vào ngày 18 tháng 3, vào ngày 2 tháng 4 hãng tiếp tục công bố thêm hai mô hình liên quan đến giọng nói là MAI-Transcribe-1 và MAI-Voice-1. Trong thời gian ngắn, họ liên tục bổ sung năng lực về hình ảnh và âm thanh, qua đó được xem là một bước quan trọng trong chiến lược AI đa phương thức của công ty. Ba mô hình này không phải cập nhật rời rạc, mà là một mảnh ghép hoàn chỉnh từ tạo sinh hình ảnh, hiểu giọng nói đến đầu ra giọng nói, cho thấy Microsoft đang nỗ lực xây dựng năng lực AI cốt lõi có thể tích hợp trực tiếp vào quy trình làm việc của doanh nghiệp.
Microsoft MAI-Image-2 nhắm tới tạo ảnh cấp thương mại
MAI-Image-2, mẫu hình ảnh được Microsoft ra mắt đầu tiên vào ngày 18 tháng 3, rõ ràng đặt trọng tâm vào “có thể dùng cho thương mại” thay vì chỉ tạo sinh ý tưởng một cách thuần sáng tạo. So với các mô hình hình ảnh trước đây nghiêng về giải trí hoặc mang tính thử nghiệm, MAI-Image-2 nhấn mạnh độ ổn định của đầu ra và độ chính xác ngữ nghĩa; có thể duy trì sự nhất quán về bố cục và độ đầy đủ chi tiết ngay cả khi có các chỉ lệnh phức tạp. Điều này khiến nó phù hợp hơn cho các tình huống như tài liệu marketing thương hiệu, hình ảnh sản phẩm và thiết kế quảng cáo.
Đối với doanh nghiệp, giá trị của các mô hình này không nằm ở việc có tạo ra được những hình ảnh ấn tượng hay không, mà ở chỗ có thể liên tục tạo ra nội dung “có thể sử dụng và có thể kiểm soát” hay không—và đây chính là trọng tâm mà MAI-Image-2 được tăng cường.
Clipto 挫勒但!微軟推會議逐字稿模型 MAI-Transcribe-1
Tiếp theo, MAI-Transcribe-1 được công bố vào ngày 2 tháng 4, tập trung vào năng lực hiểu giọng nói. Mô hình này có định vị khá rõ ràng: trở thành lớp nền tảng để chuyển đổi giọng nói thành dữ liệu văn bản có cấu trúc. Nó có thể xử lý đầu vào giọng nói theo thời gian thực, và trong các bối cảnh đa ngôn ngữ cùng các giọng khác nhau vẫn duy trì độ chính xác nhận diện cao; đồng thời có một mức độ khả năng chống nhiễu với tiếng ồn nền nhất định.
Những năng lực như vậy đặc biệt quan trọng trong bối cảnh doanh nghiệp. Dù đó là biên bản hội nghị từng chữ, ghi chép cuộc gọi chăm sóc khách hàng hay tổng hợp nội dung truyền thông, tất cả đều dựa vào chất lượng ổn định của chuyển giọng nói thành văn bản. Khi dữ liệu giọng nói có thể được chuyển đổi chính xác thành chữ, các bước sau như tìm kiếm, tóm tắt và phân tích có thể được tự động hóa toàn diện—đây cũng là vai trò then chốt của MAI-Transcribe-1 trong tổng thể kiến trúc AI.
Dùng mô hình MAI-Voice-1 cho chăm sóc khách hàng, Podcast giọng nói
Đối ứng với nó là MAI-Voice-1, chịu trách nhiệm cho đầu ra giọng nói. Mô hình này tập trung vào việc giúp giọng nói do AI tạo ra gần với thể hiện của con người hơn, bao gồm độ tự nhiên của ngữ điệu, nhịp điệu và cảm xúc. Điều này cho phép nó ứng dụng vào các tình huống như giọng nói chăm sóc khách hàng, trợ lý AI, lồng tiếng cho video và thậm chí là sản xuất podcast. So với các hệ thống tổng hợp giọng nói mang tính cơ học hơn trước đây, MAI-Voice-1 nhấn mạnh các giọng điệu và phong cách có thể điều chỉnh, khiến giọng nói không còn chỉ là công cụ truyền tải thông tin, mà trở thành một giao diện có năng lực giao tiếp và biểu đạt.
Tổng hợp nhanh 3 mô hình AI của Microsoft “Nhìn, Nghe, Nói”
Nếu đặt cả ba trong cùng một ngữ cảnh, có thể thấy cách bố trí của Microsoft không phải là bước đột phá đơn lẻ, mà là hướng đẩy nhanh tích hợp đa phương thức. MAI-Image-2 xử lý tạo sinh hình ảnh, MAI-Transcribe-1 phụ trách hiểu giọng nói, và MAI-Voice-1 hoàn tất tạo sinh giọng nói; ba mô hình này cùng tạo thành cấu trúc năng lực cơ bản “Nhìn, Nghe, Nói”.
Khi những năng lực này được kết hợp với các mô hình ngôn ngữ hiện có và dịch vụ đám mây, chúng có thể tạo ra một quy trình làm việc AI hoàn chỉnh: từ đầu vào dữ liệu, hiểu, tạo sinh đến đầu ra—tất cả đều được thực hiện trong cùng một hệ thống.
Đặc tính
MAI-Transcribe-1
(chuyển giọng nói thành văn bản)
MAI-Voice-1 (chuyển văn bản thành giọng nói) MAI-Image-2 (tạo ảnh từ văn bản) Chức năng chính
Chuyển giọng nói thành bản ghi từng chữ
Tạo ra giọng nói tự nhiên, mượt mà và có cảm xúc
Tạo ảnh dựa trên mô tả bằng văn bản
Ngày phát hành
2026 年 4 月 2 日
2026 年 4 月 2 日
2026 年 3 月 18 日
Kỹ thuật then chốt và các đặc tính
Khả năng chống nhiễu cao, nhận diện ngôn ngữ tự động
Kiểm soát cảm xúc, sao chép giọng nói (Voice Prompting)
Kiến trúc mô hình khuếch tán (Diffusion-based), độ chân thực cao
Hỗ trợ ngôn ngữ
Tiếng Anh, tiếng Trung, tiếng Tây Ban Nha… 25 ngôn ngữ
Hiện chỉ giới hạn tiếng Anh (sắp mở rộng lên 10+ ngôn ngữ)
Chủ yếu dựa trên đầu vào bằng văn bản (không nêu rõ hỗ trợ đa ngôn ngữ)
Cách định giá
Mỗi giờ âm thanh $0.36 USD
Mỗi triệu từ $22.00 USD
Tùy thuộc nền tảng triển khai (ví dụ MAI Playground)
Giới hạn đầu vào/đầu ra
Đầu vào: WAV, MP3, FLAC
Đầu vào: văn bản thuần hoặc SSML
Đầu ra: tối đa 1024×1024 pixel
Bài viết này, Microsoft công bố ba mô hình AI “Nhìn, Nghe, Nói” nhắm tới quy trình làm việc AI cấp doanh nghiệp, lần đầu xuất hiện ở 鏈新聞 ABMedia.