Sakana AIとKPMGがCoffeeBenchを発表、90日間のAIエージェント取引シミュレーション;GPT-5.5とClaudeが対照的な戦略を示す

Sakana AIとKPMG Japan Azsaによると、両社はCoffeeBenchを発表しました。これはICML 2026のAgentic AIの失敗モードワークショップで採択されたマルチエージェント長期的経済ベンチマークです。このフレームワークは、2人の農家、2人の焙煎業者、2人の小売業者からなるコーヒーサプライチェーンをシミュレートし、各AIモデルが価格交渉、注文取引、支払い決済を用いて90日間にわたって焙煎事業を運営することを要求します。

主流モデルの水平評価により、明確な取引行動が明らかになりました。GPT-5.5とClaude Opus 4.7は積極的なコミュニケーションを追求し、頻繁に価格交渉や取引を実行して売上を最大化しました。一方、Gemini 3.1 Proは受動的な応答性を示しました。特筆すべきは、Kimi K2.6が多数のツール呼び出しを行ったものの、価格規律を強化できず、高い取引量にもかかわらず利益はゼロでした。Claude Haiku 4.5は計画と実行の不一致を示し、堅実な戦略を策定したにもかかわらず繰り返し行動を選択せず、固定費が累積して多大な損失を被りました。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし