Meituan LongCat publie en open source VitaBench 2.0 pour la modélisation à long terme des utilisateurs

Selon Jin10, Meituan LongCat a aujourd'hui open-sourcé VitaBench 2.0, le premier benchmark pour évaluer les agents de modèles de langage de grande taille dans des scénarios d'interaction utilisateur dynamiques du monde réel à long terme. Le benchmark évalue systématiquement les capacités de personnalisation et de proactivité des LLM dans un engagement utilisateur soutenu.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire