ตามการตรวจสอบของ Beating ระบบมัลติเอเจนต์ Fugu Ultra ของ Sakana AI ที่อ้างว่าชนะ Fable 5 ของ Anthropic ในด้านการให้เหตุผลทางวิทยาศาสตร์และการวัดประสิทธิภาพการเขียนโค้ด กำลังเผชิญกับความสงสัยอย่างกว้างขวางจากชุมชน AI
นักวิจารณ์โต้แย้งว่าคะแนนเกณฑ์มาตรฐานขึ้นอยู่กับโครงสร้างการทดสอบที่ใช้ในระหว่างการประเมินเป็นอย่างมาก การใช้งานโครงสร้างที่แตกต่างกันอาจทำให้เกิดความผันผวนของคะแนน 10-20 จุด ซึ่งหมายความว่าความแตกต่างของประสิทธิภาพที่รายงานอาจสะท้อนถึงการปรับแต่งระบบวิศวกรรมมากกว่าความก้าวหน้าความสามารถพื้นฐานของโมเดล ทั้ง Sakana AI และ Anthropic เปิดเผยผลลัพธ์ตามโครงสร้างเฉพาะของผู้ขายที่เป็นกรรมสิทธิ์ โดยไม่มีสภาพแวดล้อมการทดสอบของบุคคลที่สามที่เป็นหนึ่งเดียว ซึ่งจำกัดความน่าเชื่อถือของการเปรียบเทียบโดยตรง