Alibaba-backed MiniMax merilis M2.1, sebuah model dengan kemampuan kuat di berbagai bahasa pemrograman serta untuk pengembangan aplikasi mobile dan web.
Pengembang AI China MiniMax melaporkan peluncuran model M2.1, menggambarkannya sebagai peningkatan besar yang dirancang untuk memberikan kinerja lebih kuat di berbagai bahasa pemrograman serta pengembangan aplikasi mobile dan web.
Menurut perusahaan, sementara versi M2 sebelumnya terutama fokus pada pengurangan biaya operasional dan peningkatan aksesibilitas, rilis M2.1 berkonsentrasi pada peningkatan efektivitas dalam tugas-tugas dunia nyata yang kompleks, dengan penekanan khusus pada dukungan bahasa yang lebih luas dan kasus penggunaan kantor yang praktis.
MiniMax menyatakan bahwa model ini kini menawarkan kemampuan yang secara substansial lebih baik di berbagai bahasa pemrograman, termasuk Rust, Java, Golang, C++, Kotlin, Objective-C, TypeScript, dan JavaScript, memungkinkan pengembangan dari sistem tingkat rendah hingga konstruksi lapisan aplikasi secara menyeluruh. Perusahaan juga melaporkan peningkatan besar dalam pengembangan web dan mobile, memperkuat dukungan native Android dan iOS sekaligus memperluas kemampuan model dalam menafsirkan kebutuhan desain, menghasilkan antarmuka yang secara visual lebih halus, dan membangun lingkungan simulasi interaktif dan tiga dimensi yang canggih.
Perusahaan lebih lanjut mencatat bahwa M2.1 meningkatkan penanganan set instruksi yang kompleks dan eksekusi tugas terintegrasi, memungkinkan kinerja yang lebih andal dalam skenario produktivitas kantor. Dibandingkan dengan pendahulunya, versi baru ini digambarkan mampu memberikan respons yang lebih singkat dan efisien, waktu eksekusi yang lebih cepat, dan beban komputasi yang berkurang, berkontribusi pada alur kerja yang lebih lancar untuk pengkodean berbantuan AI dan operasi berbasis agen. MiniMax menambahkan bahwa M2.1 menunjukkan kompatibilitas yang kuat dengan berbagai alat pengembangan dan kerangka kerja agen serta menyediakan kualitas percakapan dan penulisan yang lebih baik, menghasilkan output yang lebih rinci dan terstruktur dengan baik di seluruh dokumentasi teknis dan konteks komunikasi umum.
M2.1 Menetapkan Tolok Ukur Kinerja Baru, Memberikan Peningkatan Signifikan di Seluruh Evaluasi Multibahasa dan Full-Stack
MiniMax melaporkan bahwa model M2.1 menunjukkan peningkatan kinerja yang substansial dibandingkan versi M2 sebelumnya di berbagai tolok ukur rekayasa perangkat lunak utama, dengan hasil yang sangat kuat dalam tugas pemrograman multibahasa, di mana model ini dikatakan melampaui Claude Sonnet 4.5 dan mendekati kinerja Claude Opus 4.5. Perusahaan menyatakan bahwa evaluasi yang dilakukan di SWE-bench Verified, menggunakan berbagai kerangka agen pengkodean, menunjukkan tingkat generalisasi kerangka kerja dan stabilitas operasional yang tinggi.
Pengujian tolok ukur tambahan yang mencakup area seperti pembuatan pengujian, optimisasi runtime, review kode, dan kepatuhan instruksi dilaporkan menunjukkan peningkatan luas dibandingkan M2, dengan M2.1 secara konsisten menyamai atau mengungguli Claude Sonnet 4.5 di beberapa kategori ini. Untuk menilai kemampuan model dalam merancang dan menyampaikan aplikasi lengkap dari konsep awal hingga penerapan fungsional, MiniMax memperkenalkan kerangka evaluasi baru yang dikenal sebagai VIBE, yang mengukur kualitas visual dan perilaku interaktif di seluruh pengembangan web, simulasi, Android, iOS, dan backend. Berbeda dengan pendekatan pengujian tradisional, VIBE menerapkan metode verifikasi berbasis agen otomatis untuk memeriksa estetika antarmuka dan logika runtime.
Menurut MiniMax, M2.1 mencapai skor VIBE keseluruhan sebesar 88.6, mencerminkan kemampuan pengembangan full-stack yang kuat, dengan hasil yang sangat tinggi di pengembangan web sebesar 91.5 dan pengembangan Android sebesar 89.7. Perusahaan menambahkan bahwa model ini juga menunjukkan peningkatan berkelanjutan dalam penggunaan alat yang diperluas dan metrik kecerdasan secara keseluruhan dibandingkan dengan rilis M2 sebelumnya.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
MiniMax M2.1 Menyediakan Pemrograman Multi-Bahasa yang Canggih untuk Aplikasi Dunia Nyata yang Kompleks
Ringkasan
Alibaba-backed MiniMax merilis M2.1, sebuah model dengan kemampuan kuat di berbagai bahasa pemrograman serta untuk pengembangan aplikasi mobile dan web.
Pengembang AI China MiniMax melaporkan peluncuran model M2.1, menggambarkannya sebagai peningkatan besar yang dirancang untuk memberikan kinerja lebih kuat di berbagai bahasa pemrograman serta pengembangan aplikasi mobile dan web.
Menurut perusahaan, sementara versi M2 sebelumnya terutama fokus pada pengurangan biaya operasional dan peningkatan aksesibilitas, rilis M2.1 berkonsentrasi pada peningkatan efektivitas dalam tugas-tugas dunia nyata yang kompleks, dengan penekanan khusus pada dukungan bahasa yang lebih luas dan kasus penggunaan kantor yang praktis.
MiniMax menyatakan bahwa model ini kini menawarkan kemampuan yang secara substansial lebih baik di berbagai bahasa pemrograman, termasuk Rust, Java, Golang, C++, Kotlin, Objective-C, TypeScript, dan JavaScript, memungkinkan pengembangan dari sistem tingkat rendah hingga konstruksi lapisan aplikasi secara menyeluruh. Perusahaan juga melaporkan peningkatan besar dalam pengembangan web dan mobile, memperkuat dukungan native Android dan iOS sekaligus memperluas kemampuan model dalam menafsirkan kebutuhan desain, menghasilkan antarmuka yang secara visual lebih halus, dan membangun lingkungan simulasi interaktif dan tiga dimensi yang canggih.
Perusahaan lebih lanjut mencatat bahwa M2.1 meningkatkan penanganan set instruksi yang kompleks dan eksekusi tugas terintegrasi, memungkinkan kinerja yang lebih andal dalam skenario produktivitas kantor. Dibandingkan dengan pendahulunya, versi baru ini digambarkan mampu memberikan respons yang lebih singkat dan efisien, waktu eksekusi yang lebih cepat, dan beban komputasi yang berkurang, berkontribusi pada alur kerja yang lebih lancar untuk pengkodean berbantuan AI dan operasi berbasis agen. MiniMax menambahkan bahwa M2.1 menunjukkan kompatibilitas yang kuat dengan berbagai alat pengembangan dan kerangka kerja agen serta menyediakan kualitas percakapan dan penulisan yang lebih baik, menghasilkan output yang lebih rinci dan terstruktur dengan baik di seluruh dokumentasi teknis dan konteks komunikasi umum.
M2.1 Menetapkan Tolok Ukur Kinerja Baru, Memberikan Peningkatan Signifikan di Seluruh Evaluasi Multibahasa dan Full-Stack
MiniMax melaporkan bahwa model M2.1 menunjukkan peningkatan kinerja yang substansial dibandingkan versi M2 sebelumnya di berbagai tolok ukur rekayasa perangkat lunak utama, dengan hasil yang sangat kuat dalam tugas pemrograman multibahasa, di mana model ini dikatakan melampaui Claude Sonnet 4.5 dan mendekati kinerja Claude Opus 4.5. Perusahaan menyatakan bahwa evaluasi yang dilakukan di SWE-bench Verified, menggunakan berbagai kerangka agen pengkodean, menunjukkan tingkat generalisasi kerangka kerja dan stabilitas operasional yang tinggi.
Pengujian tolok ukur tambahan yang mencakup area seperti pembuatan pengujian, optimisasi runtime, review kode, dan kepatuhan instruksi dilaporkan menunjukkan peningkatan luas dibandingkan M2, dengan M2.1 secara konsisten menyamai atau mengungguli Claude Sonnet 4.5 di beberapa kategori ini. Untuk menilai kemampuan model dalam merancang dan menyampaikan aplikasi lengkap dari konsep awal hingga penerapan fungsional, MiniMax memperkenalkan kerangka evaluasi baru yang dikenal sebagai VIBE, yang mengukur kualitas visual dan perilaku interaktif di seluruh pengembangan web, simulasi, Android, iOS, dan backend. Berbeda dengan pendekatan pengujian tradisional, VIBE menerapkan metode verifikasi berbasis agen otomatis untuk memeriksa estetika antarmuka dan logika runtime.
Menurut MiniMax, M2.1 mencapai skor VIBE keseluruhan sebesar 88.6, mencerminkan kemampuan pengembangan full-stack yang kuat, dengan hasil yang sangat tinggi di pengembangan web sebesar 91.5 dan pengembangan Android sebesar 89.7. Perusahaan menambahkan bahwa model ini juga menunjukkan peningkatan berkelanjutan dalam penggunaan alat yang diperluas dan metrik kecerdasan secara keseluruhan dibandingkan dengan rilis M2 sebelumnya.