MiniMax M2.1 提供面向复杂实际应用的多语言高级编程

简要概述

阿里巴巴支持的MiniMax发布了M2.1模型,该模型在多种编程语言以及移动和Web应用开发方面具有强大的能力。

MiniMax Launches M2.1 Model With Advanced Multilingual And Full-Stack Development Capabilities

中国AI开发商MiniMax报告了其M2.1模型的发布,称其为一次大规模升级,旨在在多种编程语言以及移动和Web应用开发中提供更强的性能。

据公司介绍,早期的M2版本主要专注于降低运营成本和改善可访问性,而M2.1版本则集中于提升在复杂实际任务中的效果,特别强调更广泛的语言支持和实际办公场景的应用。

MiniMax表示,该模型现在在包括Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript在内的多种编程语言中提供了显著增强的能力,实现了从底层系统工程到应用层构建的端到端开发。公司还报告了在Web和移动开发方面的重大改进,增强了对原生Android和iOS的支持,同时扩展了模型解释设计需求、生成视觉精细界面以及构建高级交互和三维仿真环境的能力。

该公司进一步指出,M2.1改善了对复杂指令集和集成任务执行的处理能力,在办公生产力场景中表现更为可靠。与前一版本相比,新版本被描述为提供更短、更高效的响应,更快的执行时间和更低的计算开销,从而实现AI辅助编码和基于代理的操作流程更加顺畅。MiniMax补充说,M2.1在与各种开发工具和代理框架的兼容性方面表现出色,并提供了更优的对话和写作质量,在技术文档和一般沟通场景中产生了更详细、更结构化的输出。

M2.1树立新性能基准,在多语言和全栈评估中实现重大突破

MiniMax报告称,其M2.1模型在主要软件工程基准测试中相较早期的M2版本表现出显著的性能提升,特别是在多语言编程任务中表现强劲,被描述为超越Claude Sonnet 4.5并接近Claude Opus 4.5的性能。公司表示,在使用多种编码代理框架进行的SWE-bench Verified评估中,显示出高度的框架泛化能力和操作稳定性。

涵盖测试生成、运行时优化、代码审查和指令合规等领域的额外基准测试也显示出对M2的广泛改进,M2.1在这些类别中多次达到或超越Claude Sonnet 4.5。为了评估模型从最初概念到功能部署的完整应用设计和交付能力,MiniMax引入了一个名为VIBE的新评估框架,该框架衡量Web、仿真、Android、iOS和后端开发中的视觉质量和交互行为。与传统测试方法不同,VIBE采用自动化代理验证方法,检查界面美学和运行时逻辑。

据MiniMax称,M2.1在VIBE中的总体得分为88.6,反映出强大的全栈开发能力,Web开发得分为91.5,Android开发得分为89.7。公司补充说,与之前的M2版本相比,该模型在扩展工具使用和整体智能指标方面也持续改进。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)