De acordo com monitoramento da Beating, as alegações de vitórias do sistema multiagente Fugu Ultra, da Sakana AI, sobre o Fable 5, da Anthropic, em benchmarks de raciocínio científico e codificação enfrentam ceticismo generalizado da comunidade de IA.
Críticos argumentam que as pontuações de benchmark são altamente dependentes dos scaffolds de teste utilizados durante a avaliação. Diferentes implementações de scaffold podem introduzir variações de 10 a 20 pontos, o que significa que as diferenças de desempenho relatadas podem refletir otimização de engenharia de sistemas, em vez de avanços fundamentais na capacidade do modelo. Tanto a Sakana AI quanto a Anthropic divulgaram resultados com base em scaffolds proprietários e específicos de cada fornecedor, sem ambientes de teste unificados de terceiros, limitando a confiabilidade de comparações diretas.