Sakana AI e KPMG Apresentam CoffeeBench, Simulação de Trading de Agente de IA de 90 Dias; GPT-5.5 e Claude Mostram Estratégias Contrastantes

De acordo com a Sakana AI e a KPMG Japan Azsa, as empresas apresentaram o CoffeeBench, um benchmark económico multiagente de longo horizonte aceite pelo workshop Failure Modes in Agentic AI do ICML 2026. A estrutura simula uma cadeia de abastecimento de café com dois agricultores, dois torrefactores e dois retalhistas, exigindo que cada modelo de IA opere um negócio de torrefação durante um período de 90 dias, utilizando negociações de preços, transações de encomendas e liquidações de pagamentos.

A avaliação horizontal de modelos mainstream revelou comportamentos comerciais distintos: o GPT-5.5 e o Claude Opus 4.7 prosseguiram comunicação ativa, negociando frequentemente preços e executando transações para maximizar vendas, enquanto o Gemini 3.1 Pro mostrou capacidade de resposta passiva. Notavelmente, o Kimi K2.6 fez inúmeras chamadas de ferramentas, mas não conseguiu impor disciplina de preços, resultando em alto volume de transações, mas lucro zero. O Claude Haiku 4.5 exibiu desalinhamento entre planeamento e execução, escolhendo repetidamente a inação apesar de formular estratégias sólidas, incorrendo, em última análise, em perdas massivas à medida que os custos fixos se acumulavam.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário