DERNIÈRE HEURE : une étude menée par DeepSeek suggère que les grands modèles de langage gaspillent trop de calculs en tentant de reconstruire des connaissances statiques au sein du Transformer.


Leur solution est Engram, un module de mémoire conditionnelle qui combine des recherches O(1) avec une architecture MoE, et qui lors de tests internes a montré des améliorations en matière de connaissances, de raisonnement, de programmation, de mathématiques et de tâches à long contexte.
Voir l'original
post-image
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler