Sakana AI Fugu Ultra vs Fable 5: Benchmark-Vergleich aufgrund von Unterschieden im Test-Scaffold in Frage gestellt

Laut Überwachung durch Beating stoßen die von Sakana AIs Multi-Agenten-System Fugu Ultra behaupteten Siege über Anthropics Fable 5 in den Benchmarks für wissenschaftliches Denken und Programmierung auf weitverbreitete Skepsis in der KI-Community.

Kritiker argumentieren, dass Benchmark-Ergebnisse stark von den bei der Evaluierung verwendeten Test-Scaffolds abhängen. Unterschiedliche Scaffold-Implementierungen können zu Schwankungen von 10-20 Punkten führen, was bedeutet, dass die gemeldeten Leistungsunterschiede eher auf Optimierungen der Systemtechnik als auf grundlegende Fortschritte der Modellfähigkeiten zurückzuführen sein könnten. Sowohl Sakana AI als auch Anthropic haben Ergebnisse auf Basis proprietärer, anbieterspezifischer Scaffolds ohne einheitliche Drittanbieter-Testumgebungen veröffentlicht, was die Zuverlässigkeit direkter Vergleiche einschränkt.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare