Meituan LongCat 開源 VitaBench 2.0 用於長期用戶建模

據 Jin10,Meituan LongCat 今日開源了 VitaBench 2.0,這是首個用於評估大型語言模型代理在長期、真實世界動態用戶互動場景中的基準測試。該基準系統性地評估了 LLMs 在持續用戶互動中的個人化和主動能力。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆