Alibaba hậu thuẫn MiniMax đã phát hành M2.1, một mô hình có khả năng mạnh mẽ trong nhiều ngôn ngữ lập trình khác nhau cũng như phát triển ứng dụng di động và web.
Nhà phát triển AI Trung Quốc MiniMax đã báo cáo việc ra mắt mô hình M2.1, mô tả đây là một bản nâng cấp lớn nhằm mang lại hiệu suất mạnh mẽ hơn trên nhiều ngôn ngữ lập trình cũng như phát triển ứng dụng di động và web.
Theo công ty, trong khi phiên bản M2 trước chủ yếu tập trung vào giảm chi phí vận hành và cải thiện khả năng truy cập, thì việc phát hành M2.1 tập trung vào nâng cao hiệu quả trong các nhiệm vụ phức tạp của thế giới thực, đặc biệt nhấn mạnh vào hỗ trợ ngôn ngữ rộng hơn và các trường hợp sử dụng thực tế trong văn phòng.
MiniMax cho biết mô hình hiện nay cung cấp khả năng cải tiến đáng kể trên nhiều ngôn ngữ lập trình, bao gồm Rust, Java, Golang, C++, Kotlin, Objective-C, TypeScript và JavaScript, cho phép phát triển từ kỹ thuật hệ thống cấp thấp đến xây dựng lớp ứng dụng. Công ty cũng báo cáo các cải tiến lớn trong phát triển web và di động, tăng cường hỗ trợ native Android và iOS đồng thời mở rộng khả năng của mô hình trong việc hiểu yêu cầu thiết kế, tạo ra giao diện trực quan tinh tế và xây dựng các môi trường tương tác nâng cao và mô phỏng 3D.
Công ty cũng lưu ý rằng M2.1 cải thiện khả năng xử lý các bộ lệnh phức tạp và thực thi nhiệm vụ tích hợp, cho phép hiệu suất đáng tin cậy hơn trong các tình huống năng suất văn phòng. So với phiên bản tiền nhiệm, phiên bản mới được mô tả là cung cấp phản hồi ngắn hơn, hiệu quả hơn, thời gian thực thi nhanh hơn và giảm tải tính toán, góp phần làm mượt mà quy trình làm việc cho mã hóa hỗ trợ AI và hoạt động dựa trên tác nhân. MiniMax bổ sung rằng M2.1 thể hiện khả năng tương thích mạnh mẽ với nhiều công cụ phát triển và khung tác nhân, đồng thời cung cấp chất lượng hội thoại và viết tốt hơn, tạo ra các đầu ra chi tiết hơn và cấu trúc tốt hơn trong tài liệu kỹ thuật và các bối cảnh giao tiếp chung.
M2.1 Đặt Ra Các Mốc Hiệu Suất Mới, Mang Lại Những Thành Tựu Lớn Trong Đánh Giá Đa Ngôn Ngữ Và Toàn Bộ
MiniMax cho biết mô hình M2.1 của họ thể hiện sự tăng trưởng hiệu suất đáng kể so với phiên bản M2 trước đó trong các tiêu chuẩn kiểm thử phần mềm chính, đặc biệt trong các nhiệm vụ lập trình đa ngôn ngữ, nơi nó được mô tả là vượt qua Claude Sonnet 4.5 và gần đạt hiệu suất của Claude Opus 4.5. Công ty nói rằng các đánh giá thực hiện trên SWE-bench Verified, sử dụng nhiều khung tác nhân mã hóa, cho thấy mức độ tổng quát hóa khung và ổn định hoạt động cao.
Các thử nghiệm benchmark bổ sung bao gồm các lĩnh vực như tạo thử nghiệm, tối ưu hóa thời gian chạy, xem xét mã và tuân thủ hướng dẫn, được cho là đã thể hiện sự cải tiến rộng rãi so với M2, với M2.1 liên tục phù hợp hoặc vượt qua Claude Sonnet 4.5 trong nhiều hạng mục này. Để đánh giá khả năng của mô hình trong việc thiết kế và cung cấp các ứng dụng hoàn chỉnh từ ý tưởng ban đầu đến triển khai chức năng, MiniMax đã giới thiệu một khung đánh giá mới gọi là VIBE, đo lường chất lượng hình ảnh và hành vi tương tác trên web, mô phỏng, Android, iOS và phát triển backend. Khác với các phương pháp kiểm thử truyền thống, VIBE áp dụng phương pháp xác minh tự động dựa trên tác nhân để kiểm tra cả tính thẩm mỹ của giao diện và logic thời gian chạy.
Theo MiniMax, M2.1 đạt điểm tổng thể VIBE là 88.6, phản ánh khả năng phát triển toàn bộ hệ thống mạnh mẽ, với kết quả cao đặc biệt trong phát triển web là 91.5 và phát triển Android là 89.7. Công ty còn bổ sung rằng mô hình cũng thể hiện các cải tiến liên tục trong việc sử dụng công cụ mở rộng và các chỉ số trí tuệ tổng thể so với phiên bản M2 trước đó.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
MiniMax M2.1 Cung cấp Lập trình Đa ngôn ngữ nâng cao cho các Ứng dụng Phức tạp trong Thực tế
Tóm tắt
Alibaba hậu thuẫn MiniMax đã phát hành M2.1, một mô hình có khả năng mạnh mẽ trong nhiều ngôn ngữ lập trình khác nhau cũng như phát triển ứng dụng di động và web.
Nhà phát triển AI Trung Quốc MiniMax đã báo cáo việc ra mắt mô hình M2.1, mô tả đây là một bản nâng cấp lớn nhằm mang lại hiệu suất mạnh mẽ hơn trên nhiều ngôn ngữ lập trình cũng như phát triển ứng dụng di động và web.
Theo công ty, trong khi phiên bản M2 trước chủ yếu tập trung vào giảm chi phí vận hành và cải thiện khả năng truy cập, thì việc phát hành M2.1 tập trung vào nâng cao hiệu quả trong các nhiệm vụ phức tạp của thế giới thực, đặc biệt nhấn mạnh vào hỗ trợ ngôn ngữ rộng hơn và các trường hợp sử dụng thực tế trong văn phòng.
MiniMax cho biết mô hình hiện nay cung cấp khả năng cải tiến đáng kể trên nhiều ngôn ngữ lập trình, bao gồm Rust, Java, Golang, C++, Kotlin, Objective-C, TypeScript và JavaScript, cho phép phát triển từ kỹ thuật hệ thống cấp thấp đến xây dựng lớp ứng dụng. Công ty cũng báo cáo các cải tiến lớn trong phát triển web và di động, tăng cường hỗ trợ native Android và iOS đồng thời mở rộng khả năng của mô hình trong việc hiểu yêu cầu thiết kế, tạo ra giao diện trực quan tinh tế và xây dựng các môi trường tương tác nâng cao và mô phỏng 3D.
Công ty cũng lưu ý rằng M2.1 cải thiện khả năng xử lý các bộ lệnh phức tạp và thực thi nhiệm vụ tích hợp, cho phép hiệu suất đáng tin cậy hơn trong các tình huống năng suất văn phòng. So với phiên bản tiền nhiệm, phiên bản mới được mô tả là cung cấp phản hồi ngắn hơn, hiệu quả hơn, thời gian thực thi nhanh hơn và giảm tải tính toán, góp phần làm mượt mà quy trình làm việc cho mã hóa hỗ trợ AI và hoạt động dựa trên tác nhân. MiniMax bổ sung rằng M2.1 thể hiện khả năng tương thích mạnh mẽ với nhiều công cụ phát triển và khung tác nhân, đồng thời cung cấp chất lượng hội thoại và viết tốt hơn, tạo ra các đầu ra chi tiết hơn và cấu trúc tốt hơn trong tài liệu kỹ thuật và các bối cảnh giao tiếp chung.
M2.1 Đặt Ra Các Mốc Hiệu Suất Mới, Mang Lại Những Thành Tựu Lớn Trong Đánh Giá Đa Ngôn Ngữ Và Toàn Bộ
MiniMax cho biết mô hình M2.1 của họ thể hiện sự tăng trưởng hiệu suất đáng kể so với phiên bản M2 trước đó trong các tiêu chuẩn kiểm thử phần mềm chính, đặc biệt trong các nhiệm vụ lập trình đa ngôn ngữ, nơi nó được mô tả là vượt qua Claude Sonnet 4.5 và gần đạt hiệu suất của Claude Opus 4.5. Công ty nói rằng các đánh giá thực hiện trên SWE-bench Verified, sử dụng nhiều khung tác nhân mã hóa, cho thấy mức độ tổng quát hóa khung và ổn định hoạt động cao.
Các thử nghiệm benchmark bổ sung bao gồm các lĩnh vực như tạo thử nghiệm, tối ưu hóa thời gian chạy, xem xét mã và tuân thủ hướng dẫn, được cho là đã thể hiện sự cải tiến rộng rãi so với M2, với M2.1 liên tục phù hợp hoặc vượt qua Claude Sonnet 4.5 trong nhiều hạng mục này. Để đánh giá khả năng của mô hình trong việc thiết kế và cung cấp các ứng dụng hoàn chỉnh từ ý tưởng ban đầu đến triển khai chức năng, MiniMax đã giới thiệu một khung đánh giá mới gọi là VIBE, đo lường chất lượng hình ảnh và hành vi tương tác trên web, mô phỏng, Android, iOS và phát triển backend. Khác với các phương pháp kiểm thử truyền thống, VIBE áp dụng phương pháp xác minh tự động dựa trên tác nhân để kiểm tra cả tính thẩm mỹ của giao diện và logic thời gian chạy.
Theo MiniMax, M2.1 đạt điểm tổng thể VIBE là 88.6, phản ánh khả năng phát triển toàn bộ hệ thống mạnh mẽ, với kết quả cao đặc biệt trong phát triển web là 91.5 và phát triển Android là 89.7. Công ty còn bổ sung rằng mô hình cũng thể hiện các cải tiến liên tục trong việc sử dụng công cụ mở rộng và các chỉ số trí tuệ tổng thể so với phiên bản M2 trước đó.