Kecerdasan umum buatan, atau AGI, sering digambarkan sebagai sistem yang dapat melakukan berbagai bidang seperti manusia. Hasil yang dirilis minggu ini dari pengujian benchmark MATHVISTA menunjukkan bahwa model saat ini masih belum mencapai tujuan tersebut. Peneliti dari Microsoft Research, Sahara AI, dan Universitas Emory menguji kemampuan yang menjadi inti dari kecerdasan umum, yaitu penalaran matematika berbasis informasi visual, termasuk grafik, diagram, dan bagan. Dari 12 model dasar yang diuji, termasuk ChatGPT, Gemini, dan Claude, GPT-4 Vision mendapatkan skor tertinggi sebesar 49,9%. Partisipan manusia rata-rata mendapatkan 60,3%, menunjukkan adanya kesenjangan antara sistem AI saat ini dan kemampuan penalaran yang lebih luas yang sering dikaitkan dengan AGI.
“Kami ingin mesin melakukan hal-hal yang bisa dilakukan oleh orang biasa dalam tugas sehari-hari,” kata Peneliti Utama di Microsoft Research Hao Cheng kepada Decrypt. “Itu pada dasarnya yang dikejar semua orang untuk mencapai AGI.” Dengan mengubah masalah menjadi gambar, diagram, dan plot, proyek ini menguji apakah model dapat menginterpretasikan informasi visual secara akurat dan menyelesaikan masalah matematika dan logika berlangkah-langkah—keterampilan yang melampaui sekadar pencocokan pola pada teks. Model-model tersebut masih kesulitan dengan tugas-tugas ini, dan mengukur keterbatasan tersebut cukup sulit.
Ketika tim Cheng meninjau dataset evaluasi yang ada, banyak yang berisi masalah yang tidak memerlukan penalaran visual. Model sering mencapai jawaban yang benar hanya dengan mengandalkan teks. “Yang tidak ideal,” kata Cheng. MathVista, yang tersedia di GitHub dan Hugging Face, diluncurkan pada Oktober 2023. Sejak saat itu, telah diunduh lebih dari 275.000 kali, termasuk lebih dari 13.000 unduhan dalam bulan terakhir, menurut Microsoft Research. Membuat dataset ini membutuhkan lebih dari sekadar pelabelan data standar. Microsoft Research membutuhkan annotator yang mampu mengerjakan masalah di bidang aritmatika, aljabar, geometri, dan statistik, sambil membedakan penalaran matematika yang lebih dalam, seperti menginterpretasikan grafik atau menyelesaikan persamaan, dari tugas yang lebih sederhana seperti menghitung objek atau membaca angka. Setelah fase pilot, Microsoft memilih Sahara AI untuk mendukung upaya ini. Perusahaan menyediakan annotator terlatih, alur kerja khusus, dan pemeriksaan kualitas berlapis untuk menghasilkan lebih dari 6.000 contoh multimodal yang digunakan dalam benchmark. Tanpa benchmark yang andal, mengukur kemajuan menuju kecerdasan mesin yang lebih luas menjadi sulit, kata Sean Ren, CEO Sahara AI dan profesor ilmu komputer di USC. “Ada nuansa kontaminasi data, di mana begitu kita mulai menggunakan dataset ini untuk pengujian, hasilnya akan terserap ke dalam versi berikutnya,” kata Ren kepada Decrypt. “Jadi, kita tidak benar-benar tahu apakah mereka menyelesaikan hanya sebuah dataset, atau mereka memiliki kemampuan sebenarnya.” Jika jawaban benchmark muncul dalam data pelatihan model, skor tinggi bisa mencerminkan hafalan daripada penalaran. Hal ini menyulitkan untuk menentukan apakah sistem AI benar-benar mengalami peningkatan.
Para peneliti juga menunjukkan batasan dalam data pelatihan. Banyak data internet yang tersedia secara umum sudah dimasukkan ke dalam dataset model. “Anda pasti perlu memiliki cara untuk menyuntikkan pengetahuan baru ke dalam proses ini,” kata Cheng. “Saya pikir hal semacam ini harus berasal dari data berkualitas tinggi agar kita benar-benar bisa menembus batas pengetahuan ini.” Salah satu jalur yang diusulkan melibatkan lingkungan simulasi di mana model dapat berinteraksi, belajar dari pengalaman, dan meningkat melalui umpan balik. “Anda menciptakan dunia kembar atau cermin dari dunia nyata di dalam sandbox sehingga model bisa bermain dan melakukan banyak hal yang dilakukan manusia di kehidupan nyata, sehingga pada dasarnya bisa menembus batas internet,” kata Cheng. Ren mengatakan manusia mungkin tetap berperan penting dalam meningkatkan sistem AI. Meskipun model dapat menghasilkan konten dengan cepat, manusia tetap lebih baik dalam mengevaluasinya. “Kesenjangan antara manusia dan AI, di mana mereka unggul dan di mana mereka tidak, bisa dimanfaatkan untuk benar-benar meningkatkan AI di masa depan,” katanya.