MiniMax M2.1 提供先進的多語言編程,適用於複雜的現實應用場景

簡要介紹

阿里巴巴支持的MiniMax發布了M2.1模型,該模型在多種程式語言以及移動和網頁應用開發方面具有強大的能力。

MiniMax Launches M2.1 Model With Advanced Multilingual And Full-Stack Development Capabilities

中國AI開發商MiniMax報告了其M2.1模型的發布,並將其描述為一次大規模升級,旨在在多種程式語言以及移動和網頁應用開發方面提供更強的性能。

根據該公司,早期的M2版本主要專注於降低運營成本和改善可及性,而M2.1版本則著重於提升在複雜現實任務中的效果,特別強調更廣泛的語言支持和實用的辦公應用場景。

MiniMax表示,該模型現在在包括Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript在內的多種程式語言中提供了顯著提升的能力,實現從底層系統工程到應用層構建的端到端開發。公司還報告了在網頁和移動開發方面的重大增強,強化了原生Android和iOS的支持,同時擴展了模型解讀設計需求、生成視覺細膩界面以及構建高級互動和三維模擬環境的能力。

該公司進一步指出,M2.1改善了對複雜指令集和集成任務執行的處理能力,使其在辦公生產力場景中表現更為可靠。與前一版本相比,新版本被描述為能提供更短、更高效的回應,執行速度更快,計算負擔更低,有助於AI輔助編碼和代理操作的流程更加順暢。MiniMax補充說,M2.1展現出與各種開發工具和代理框架的良好兼容性,並在對話和寫作質量方面有所提升,能在技術文檔和一般交流中產生更詳細、更結構化的輸出。

M2.1創下新性能基準,在多語言和全棧評測中取得重大進展

MiniMax報告稱,其M2.1模型在主要軟體工程基準測試中相較早期的M2版本展現出顯著的性能提升,尤其在多語言程式設計任務中表現出色,被描述為超越Claude Sonnet 4.5並接近Claude Opus 4.5的性能。該公司表示,在使用多種程式代理框架進行的SWE-bench Verified評估中,顯示出高度的框架泛化能力和運行穩定性。

涵蓋測試生成、運行時優化、程式碼審查和指令合規等領域的額外基準測試,據稱也展現出對M2的廣泛改進,M2.1在多個類別中持續超越或匹配Claude Sonnet 4.5。為了評估模型從初始概念到功能部署的完整應用設計能力,MiniMax引入了一個名為VIBE的新評估框架,該框架衡量網頁、模擬、Android、iOS和後端開發中的視覺質量和互動行為。與傳統測試方法不同,VIBE採用自動化代理驗證方法來檢查界面美學和運行時邏輯。

根據MiniMax,M2.1在VIBE中的總體得分為88.6,反映出強大的全棧開發能力,網頁開發得分為91.5,Android開發得分為89.7。公司補充說,該模型在擴展工具使用和整體智能指標方面也持續進步,較前一版本M2有明顯提升。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)