La inteligencia artificial general, o AGI, se describe a menudo como un sistema que puede desempeñarse en muchos ámbitos de la misma manera que los humanos. Los resultados publicados esta semana en la prueba de referencia MATHVISTA muestran que los modelos actuales aún no alcanzan ese objetivo. Investigadores de Microsoft Research, Sahara AI y la Universidad de Emory evaluaron capacidades centrales para la inteligencia general, como el razonamiento matemático basado en información visual, incluyendo gráficos, diagramas y esquemas. De los 12 modelos fundamentales evaluados, incluyendo ChatGPT, Gemini y Claude, GPT-4 Vision obtuvo la puntuación más alta con un 49.9%. Los participantes humanos promediaron un 60.3%, lo que resalta la brecha entre los sistemas de IA actuales y la capacidad de razonamiento más amplia a menudo asociada con la AGI.
“Queremos que la máquina haga cosas que una persona normal y promedio puede hacer en sus tareas diarias,” dijo Hao Cheng, investigador principal de Microsoft Research, a Decrypt. “Eso es básicamente lo que todos persiguen para la AGI.” Al convertir problemas en imágenes, diagramas y gráficos, el proyecto prueba si los modelos pueden interpretar con precisión la información visual y resolver problemas matemáticos y lógicos de múltiples pasos—habilidades que van más allá del simple reconocimiento de patrones en texto. Los modelos aún tienen dificultades con esas tareas, y medir esa limitación resulta complicado.
Cuando el equipo de Cheng revisó los conjuntos de datos de evaluación existentes, muchos incluían problemas que no requerían razonamiento visual. Los modelos a menudo llegaban a respuestas correctas confiando únicamente en el texto. “Lo cual no es ideal,” dijo Cheng. MathVista, disponible en GitHub y Hugging Face, se lanzó en octubre de 2023. Desde entonces, ha sido descargado más de 275,000 veces, incluyendo más de 13,000 descargas en el último mes, según Microsoft Research. Crear el conjunto de datos requirió más que una simple etiquetación de datos estándar. Microsoft Research necesitaba anotadores capaces de trabajar en problemas de aritmética, álgebra, geometría y estadística, distinguiendo razonamientos matemáticos más profundos, como interpretar gráficos o resolver ecuaciones, de tareas más simples como contar objetos o leer números. Tras una fase piloto, Microsoft eligió Sahara AI para apoyar el esfuerzo. La compañía proporcionó anotadores capacitados, flujos de trabajo personalizados y controles de calidad en varias etapas para producir más de 6,000 ejemplos multimodales utilizados en la referencia. Sin benchmarks confiables, medir el progreso hacia una inteligencia artificial más amplia resulta difícil, según Sean Ren, CEO de Sahara AI y profesor asociado de ciencias de la computación en USC. “Existe una sutileza en la contaminación de datos, donde una vez que empezamos a usar este conjunto de datos para probar, esos resultados se absorben en la siguiente versión,” explicó Ren a Decrypt. “Así que realmente no sabes si están resolviendo solo un conjunto de datos o si tienen la capacidad.” Si las respuestas del benchmark aparecen en los datos de entrenamiento de un modelo, las puntuaciones altas pueden reflejar memorización en lugar de razonamiento. Esto dificulta determinar si los sistemas de IA están realmente mejorando.
Los investigadores también señalan límites en los datos de entrenamiento. Mucho del internet públicamente disponible ya ha sido incorporado en los conjuntos de datos de los modelos. “Definitivamente necesitas alguna forma de introducir nuevo conocimiento en este proceso,” dijo Cheng. “Creo que esto debe provenir de datos de alta calidad para que realmente podamos romper esa frontera del conocimiento.” Una vía propuesta implica entornos simulados donde los modelos puedan interactuar, aprender de la experiencia y mejorar mediante retroalimentación. “Creas un mundo doble o un espejo del mundo real dentro de un sandbox para que el modelo pueda jugar y hacer muchas cosas que los humanos hacen en la vida real, de modo que básicamente pueda romper la frontera de internet,” explicó Cheng. Ren dijo que los humanos todavía pueden jugar un papel importante en la mejora de los sistemas de IA. Aunque los modelos pueden generar contenido rápidamente, los humanos siguen siendo mejores evaluándolo. “Esa brecha entre humanos y IA, en lo que son buenos y en lo que no, puede aprovecharse para mejorar realmente la IA en el futuro,” concluyó.