Selon la surveillance de Beating, les victoires revendiquées par le système multi-agents Fugu Ultra de Sakana AI face à Fable 5 d'Anthropic dans les benchmarks de raisonnement scientifique et de codage suscitent un large scepticisme au sein de la communauté IA.
Les critiques avancent que les scores des benchmarks dépendent fortement des échafaudages de test utilisés lors de l'évaluation. Différentes implémentations d'échafaudages peuvent introduire des variations de 10 à 20 points, ce qui signifie que les différences de performance rapportées peuvent refléter une optimisation de l'ingénierie des systèmes plutôt que des avancées fondamentales des capacités des modèles. Sakana AI et Anthropic ont tous deux publié des résultats basés sur des échafaudages propriétaires et spécifiques à chaque fournisseur, sans environnements de test unifiés de tiers, limitant ainsi la fiabilité des comparaisons directes.