Laut ARC Prize hat das GLM-5.2-Modell von Zhipu kürzlich die offizielle Verifizierung auf dem ARC-AGI-Benchmark bestanden. Auf ARC-AGI-2 erreichte GLM-5.2 eine Genauigkeit von 22,8 % bei durchschnittlichen Kosten von 0,25 US-Dollar pro Aufgabe, während es auf dem einfacheren ARC-AGI-1-Benchmark eine Genauigkeit von 77,0 % bei 0,19 US-Dollar pro Durchlauf erzielte.
Die Gesamtleistung von GLM-5.2 ist vergleichbar mit der von OpenAIs GPT-5.4 und GPT-5.5 im Modus mit geringem Reasoning-Aufwand. ARC-AGI wurde entwickelt, um AGI-Level-Reasoning-Fähigkeiten durch abstrakte Mustererkennungsaufgaben zu bewerten, die während des Trainings nie gesehen wurden.