ตามการตรวจสอบของ Beating ระบบมัลติเอเจนต์ Fugu Ultra ของ Sakana AI ที่อ้างว่าชนะ Fable 5 ของ Anthropic ในด้านการให้เหตุผลทางวิทยาศาสตร์และการวัดประสิทธิภาพการเขียนโค้ด กำลังเผชิญกับความสงสัยอย่างกว้างขวางจากชุมชน AI

นักวิจารณ์โต้แย้งว่าคะแนนเกณฑ์มาตรฐานขึ้นอยู่กับโครงสร้างการทดสอบที่ใช้ในระหว่างการประเมินเป็นอย่างมาก การใช้งานโครงสร้างที่แตกต่างกันอาจทำให้เกิดความผันผวนของคะแนน 10-20 จุด ซึ่งหมายความว่าความแตกต่างของประสิทธิภาพที่รายงานอาจสะท้อนถึงการปรับแต่งระบบวิศวกรรมมากกว่าความก้าวหน้าความสามารถพื้นฐานของโมเดล ทั้ง Sakana AI และ Anthropic เปิดเผยผลลัพธ์ตามโครงสร้างเฉพาะของผู้ขายที่เป็นกรรมสิทธิ์ โดยไม่มีสภาพแวดล้อมการทดสอบของบุคคลที่สามที่เป็นหนึ่งเดียว ซึ่งจำกัดความน่าเชื่อถือของการเปรียบเทียบโดยตรง

news.view.source

news.article.disclaimer

news.related.news

5 ชั่วโมง ที่แล้ว

Sakana AI และ KPMG เปิดตัว CoffeeBench การจำลองการซื้อขายตัวแทน AI ระยะเวลา 90 วัน; GPT-5.5 และ Claude แสดงกลยุทธ์ที่แตกต่างกัน

12 ชั่วโมง ที่แล้ว

Google ปรับโครงสร้างทีมงาน AI Coding หลังจากนักวิจัยหลักสองคนลาออกในสัปดาห์นี้ หุ้นร่วง 5%

12 ชั่วโมง ที่แล้ว

Karpathy เผชิญกระแสตอบรับเชิงลบบน X หลังจากชื่นชม Claude; Musk ให้คำมั่นยกเครื่องอัลกอริทึม

14 ชั่วโมง ที่แล้ว

Anthropic ปิดกั้นการเข้าถึงของสหภาพยุโรปต่อ Fable 5 และ Mythos 5 เนื่องจากข้อกังวลด้านความปลอดภัยเกี่ยวกับการเจลเบรก

06-25 06:33