Sakana AI và KPMG công bố CoffeeBench, mô phỏng giao dịch AI Agent 90 ngày; GPT-5.5 và Claude cho thấy các chiến lược tương phản.

Theo Sakana AI và KPMG Japan Azsa, các công ty đã công bố CoffeeBench, một tiêu chuẩn đánh giá kinh tế đa tác tử dài hạn được chấp nhận bởi hội thảo Failure Modes in Agentic AI của ICML 2026. Khuôn khổ này mô phỏng một chuỗi cung ứng cà phê với hai nông dân, hai nhà rang xay và hai nhà bán lẻ, yêu cầu mỗi mô hình AI vận hành một doanh nghiệp rang xay trong khoảng thời gian 90 ngày thông qua các cuộc đàm phán giá, giao dịch đặt hàng và thanh toán.

Đánh giá ngang trên các mô hình chính thống cho thấy các hành vi giao dịch khác biệt: GPT-5.5 và Claude Opus 4.7 theo đuổi giao tiếp chủ động, thường xuyên đàm phán giá và thực hiện giao dịch để tối đa hóa doanh số, trong khi Gemini 3.1 Pro thể hiện sự phản hồi thụ động. Đáng chú ý, Kimi K2.6 đã thực hiện nhiều lời gọi công cụ nhưng không áp dụng được kỷ luật định giá, dẫn đến khối lượng giao dịch cao nhưng lợi nhuận bằng không. Claude Haiku 4.5 thể hiện sự sai lệch giữa lập kế hoạch và thực thi, nhiều lần chọn không hành động mặc dù đã xây dựng các chiến lược vững chắc, cuối cùng chịu lỗ lớn khi chi phí cố định tích lũy.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận