美团 LongCat 开源 VitaBench 2.0 用于长期用户建模

根据金十数据,美团 LongCat 今天开源了 VitaBench 2.0,这是首个用于评估大语言模型代理在长期、真实世界动态用户交互场景中的基准。该基准系统评估了 LLMs 在持续用户参与中的个性化和主动能力。
免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论