Menurut Sakana AI dan KPMG Japan Azsa, perusahaan-perusahaan tersebut meluncurkan CoffeeBench, sebuah tolok ukur ekonomi multi-agen jangka panjang yang diterima oleh workshop Failure Modes in Agentic AI ICML 2026. Kerangka kerja ini mensimulasikan rantai pasokan kopi dengan dua petani, dua pemanggang, dan dua pengecer, yang mengharuskan setiap model AI mengoperasikan bisnis pemanggangan selama periode 90 hari dengan menggunakan negosiasi harga, transaksi pesanan, dan penyelesaian pembayaran.
Evaluasi horizontal terhadap model-model mainstream mengungkapkan perilaku perdagangan yang berbeda: GPT-5.5 dan Claude Opus 4.7 mengejar komunikasi aktif, sering melakukan negosiasi harga dan menjalankan perdagangan untuk memaksimalkan penjualan, sementara Gemini 3.1 Pro menunjukkan responsivitas pasif. Perlu dicatat, Kimi K2.6 melakukan banyak panggilan alat tetapi gagal menegakkan disiplin harga, menghasilkan volume transaksi tinggi namun keuntungan nol. Claude Haiku 4.5 menunjukkan ketidakselarasan perencanaan-eksekusi, berulang kali memilih tidak bertindak meskipun telah merumuskan strategi yang solid, yang akhirnya menyebabkan kerugian besar karena biaya tetap yang terakumulasi.