Microsoft phát hành ba mô hình AI “nhìn, nghe, nói”, nhắm vào quy trình công việc AI cấp doanh nghiệp cho mục đích thương mại

ChainNewsAbmedia

2026-04-02 17:35:09

Sau khi Microsoft phát hành mô hình tạo ảnh MAI-Image-2 vào ngày 18 tháng 3, vào ngày 2 tháng 4 hãng tiếp tục công bố thêm hai mô hình liên quan đến giọng nói là MAI-Transcribe-1 và MAI-Voice-1. Trong thời gian ngắn, họ liên tục bổ sung năng lực về hình ảnh và âm thanh, qua đó được xem là một bước quan trọng trong chiến lược AI đa phương thức của công ty. Ba mô hình này không phải cập nhật rời rạc, mà là một mảnh ghép hoàn chỉnh từ tạo sinh hình ảnh, hiểu giọng nói đến đầu ra giọng nói, cho thấy Microsoft đang nỗ lực xây dựng năng lực AI cốt lõi có thể tích hợp trực tiếp vào quy trình làm việc của doanh nghiệp.

Microsoft MAI-Image-2 nhắm tới tạo ảnh cấp thương mại

MAI-Image-2, mẫu hình ảnh được Microsoft ra mắt đầu tiên vào ngày 18 tháng 3, rõ ràng đặt trọng tâm vào “có thể dùng cho thương mại” thay vì chỉ tạo sinh ý tưởng một cách thuần sáng tạo. So với các mô hình hình ảnh trước đây nghiêng về giải trí hoặc mang tính thử nghiệm, MAI-Image-2 nhấn mạnh độ ổn định của đầu ra và độ chính xác ngữ nghĩa; có thể duy trì sự nhất quán về bố cục và độ đầy đủ chi tiết ngay cả khi có các chỉ lệnh phức tạp. Điều này khiến nó phù hợp hơn cho các tình huống như tài liệu marketing thương hiệu, hình ảnh sản phẩm và thiết kế quảng cáo.

Đối với doanh nghiệp, giá trị của các mô hình này không nằm ở việc có tạo ra được những hình ảnh ấn tượng hay không, mà ở chỗ có thể liên tục tạo ra nội dung “có thể sử dụng và có thể kiểm soát” hay không—và đây chính là trọng tâm mà MAI-Image-2 được tăng cường.

Clipto 挫勒但！微軟推會議逐字稿模型 MAI-Transcribe-1

Tiếp theo, MAI-Transcribe-1 được công bố vào ngày 2 tháng 4, tập trung vào năng lực hiểu giọng nói. Mô hình này có định vị khá rõ ràng: trở thành lớp nền tảng để chuyển đổi giọng nói thành dữ liệu văn bản có cấu trúc. Nó có thể xử lý đầu vào giọng nói theo thời gian thực, và trong các bối cảnh đa ngôn ngữ cùng các giọng khác nhau vẫn duy trì độ chính xác nhận diện cao; đồng thời có một mức độ khả năng chống nhiễu với tiếng ồn nền nhất định.

Những năng lực như vậy đặc biệt quan trọng trong bối cảnh doanh nghiệp. Dù đó là biên bản hội nghị từng chữ, ghi chép cuộc gọi chăm sóc khách hàng hay tổng hợp nội dung truyền thông, tất cả đều dựa vào chất lượng ổn định của chuyển giọng nói thành văn bản. Khi dữ liệu giọng nói có thể được chuyển đổi chính xác thành chữ, các bước sau như tìm kiếm, tóm tắt và phân tích có thể được tự động hóa toàn diện—đây cũng là vai trò then chốt của MAI-Transcribe-1 trong tổng thể kiến trúc AI.

Dùng mô hình MAI-Voice-1 cho chăm sóc khách hàng, Podcast giọng nói

Đối ứng với nó là MAI-Voice-1, chịu trách nhiệm cho đầu ra giọng nói. Mô hình này tập trung vào việc giúp giọng nói do AI tạo ra gần với thể hiện của con người hơn, bao gồm độ tự nhiên của ngữ điệu, nhịp điệu và cảm xúc. Điều này cho phép nó ứng dụng vào các tình huống như giọng nói chăm sóc khách hàng, trợ lý AI, lồng tiếng cho video và thậm chí là sản xuất podcast. So với các hệ thống tổng hợp giọng nói mang tính cơ học hơn trước đây, MAI-Voice-1 nhấn mạnh các giọng điệu và phong cách có thể điều chỉnh, khiến giọng nói không còn chỉ là công cụ truyền tải thông tin, mà trở thành một giao diện có năng lực giao tiếp và biểu đạt.

Tổng hợp nhanh 3 mô hình AI của Microsoft “Nhìn, Nghe, Nói”

Nếu đặt cả ba trong cùng một ngữ cảnh, có thể thấy cách bố trí của Microsoft không phải là bước đột phá đơn lẻ, mà là hướng đẩy nhanh tích hợp đa phương thức. MAI-Image-2 xử lý tạo sinh hình ảnh, MAI-Transcribe-1 phụ trách hiểu giọng nói, và MAI-Voice-1 hoàn tất tạo sinh giọng nói; ba mô hình này cùng tạo thành cấu trúc năng lực cơ bản “Nhìn, Nghe, Nói”.

Khi những năng lực này được kết hợp với các mô hình ngôn ngữ hiện có và dịch vụ đám mây, chúng có thể tạo ra một quy trình làm việc AI hoàn chỉnh: từ đầu vào dữ liệu, hiểu, tạo sinh đến đầu ra—tất cả đều được thực hiện trong cùng một hệ thống.

Đặc tính

MAI-Transcribe-1

(chuyển giọng nói thành văn bản)

MAI-Voice-1 (chuyển văn bản thành giọng nói) MAI-Image-2 (tạo ảnh từ văn bản) Chức năng chính

Chuyển giọng nói thành bản ghi từng chữ

Tạo ra giọng nói tự nhiên, mượt mà và có cảm xúc

Tạo ảnh dựa trên mô tả bằng văn bản

Ngày phát hành

2026 年 4 月 2 日

2026 年 3 月 18 日

Kỹ thuật then chốt và các đặc tính

Khả năng chống nhiễu cao, nhận diện ngôn ngữ tự động

Kiểm soát cảm xúc, sao chép giọng nói (Voice Prompting)

Kiến trúc mô hình khuếch tán (Diffusion-based), độ chân thực cao

Hỗ trợ ngôn ngữ

Tiếng Anh, tiếng Trung, tiếng Tây Ban Nha… 25 ngôn ngữ

Hiện chỉ giới hạn tiếng Anh (sắp mở rộng lên 10+ ngôn ngữ)

Chủ yếu dựa trên đầu vào bằng văn bản (không nêu rõ hỗ trợ đa ngôn ngữ)

Cách định giá

Mỗi giờ âm thanh $0.36 USD

Mỗi triệu từ $22.00 USD

Tùy thuộc nền tảng triển khai (ví dụ MAI Playground)

Giới hạn đầu vào/đầu ra

Đầu vào: WAV, MP3, FLAC

Đầu vào: văn bản thuần hoặc SSML

Đầu ra: tối đa 1024×1024 pixel

Bài viết này, Microsoft công bố ba mô hình AI “Nhìn, Nghe, Nói” nhắm tới quy trình làm việc AI cấp doanh nghiệp, lần đầu xuất hiện ở 鏈新聞 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận