BridgeBench AIとArena.AIによると、7月1日のClaude Fable 5の復活により、矛盾したベンチマーク結果が引き起こされた。BridgeBenchはデバッグスコアが86.2から25.9に急落したと報告したが、データによると12タスクのうち9つがFable 5自体に到達するのではなく、Anthropicの新しい安全分類器によってOpus 4.8に再ルーティングされたことが示された。一方、Arena.AIの数千件の人間の嗜好投票では、モデルが実際にリクエストを処理した場合、Fable 5のパフォーマンスはほとんどのカテゴリでほぼ横ばいまたは向上しており、ドキュメントパフォーマンスは34エロポイント、エキスパートテキストは25ポイント上昇したことがわかった。この違いは重要である。創造的執筆、研究、テキスト分析の一般ユーザーはほとんど違いを感じないが、コード修復やデバッグに取り組む開発者は常にフォールバックルーティングに直面する。Anthropicは、新しい分類器がエクスプロイト関連のプロンプトをブロックする際に網を張りすぎていることを認め、改良は時間をかけて行うと述べたが、時期は示さなかった。
免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、
免責事項をご確認ください。