D’après Beating, l’équipe de MIT Kaiming He a récemment publié ELF (Embedded Language Flows), un modèle de diffusion de langage qui s’écarte de l’approche autoregressive « prédire le jeton suivant » utilisée par les modèles de type GPT. Au lieu de cela, ELF effectue la génération de texte dans un espace d’embeddings continus, ne convertissant en jetons discrets qu’à l’étape finale.
Lors des benchmarks de génération inconditionnelle sur OpenWebText, l’ELF-B à 105M paramètres a atteint environ 24,1 perplexité de génération (Gen. PPL) avec un échantillonnage sur 32 étapes, surpassant plusieurs baselines de modèles de langage à diffusion discrète et continue. Fait notable, ELF-B n’a nécessité qu’environ 45 milliards de tokens d’entraînement, soit à peu près un ordre de grandeur de moins que des méthodes comparables qui dépassent généralement 500 milliards de tokens.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Samsung prévoit une production de masse au T4 d’unités mémoire pour serveurs d’IA CXL 3.1
D’après The Korea Herald, Samsung Electronics prévoit de lancer la production en masse de ses modules mémoire CXL 3.1 pour des serveurs d’IA au quatrième trimestre, après des expéditions d’échantillons au troisième trimestre. Le module CMM-D 3.1 combine de la DRAM et un contrôleur CXL sur une seule carte, avec un support jusqu’à 1 téraoctet et une bande passante de 72 gigaoctets par seconde sur PCIe 6.0. Samsung avait auparavant expédié des échantillons CXL 2.0 à plus de 40 entreprises, dont Mic
GateNewsIl y a 1m
L’ancien chercheur en IA d’Alibaba, Linjun Lin, lance un nouveau laboratoire d’IA évalué à environ 2 milliards de dollars
D’après The Information, Linjun Lin, ancien chercheur en IA chez Alibaba, a récemment fondé un nouveau laboratoire d’intelligence artificielle. La startup serait évaluée à environ 2 milliards de dollars.
GateNewsIl y a 3m
Anthropic est en pourparlers pour acquérir la startup d’outils pour développeurs Stainless pour au moins 300 millions de dollars
D’après The Information, Anthropic est en pourparlers avancés pour acquérir la startup d’outils pour développeurs Stainless pour au moins 300 millions de dollars. Les outils pour développeurs de Stainless ont été adoptés par OpenAI et Google.
GateNewsIl y a 23m
Andrew Ng : « L’IA ne va pas déclencher une vague massive de chômage », le recrutement dans le secteur logiciel reste solide
学者領域知名的 AI 领域,DeepLearning.AI 创辦人 Andrew Ng(吴恩达)在 5 月 12 日于 X 与 The Batch 电子报发文主张「AI 不会引发失业大潮(jobpocalypse)」,直接反驳主流 AI 失业恐慌叙事。根据 Andrew Ng 原推,这篇贴文获得逾 2 600 次按赞,是当週 AI 领域最具话题性的观点文章之一。 Ng 的核心论点:软件工程招聘仍然强劲、失业率维持 4,3% Ng 用三组具体数据反驳「AI 将造成大规模失业」的叙事: 软件工程是受 AI 工具影响最深的产业(编码代理人快速进步),但软件工程师的招聘仍然强劲 尽管 AI 进展快速,美国目前失业率维持在 4,3% 的健康区间 从历史经验看:AI 创造的新工作数量、明显高于它取代的工作数量、与过去技术浪潮一致 Ng 直言:「AI——就像其他任何技术一样——确实影响工作,但讲述大规模失业的夸大故事是不负责任且有害的。我们应该制止这类叙事。」 为什么「AI 失业」叙事如此流行:Ng 指出 3 个诱因 Ng 指出 3 个结构性诱因,解释为什么这套叙事被持续放大: 第一、前沿 AI 实
ChainNewsAbmediaIl y a 1h
Le super-nœud Tian Chi à 256 cartes de Kunlun Chip de Baidu sera lancé en juin avec une amélioration de 25% du débit
D’après Baidu, le 13 mai, lors de la conférence développeurs Create 2026, l’entreprise a annoncé que son supernode Kunlun Chip Tian Chi à 256 cartes sera officiellement lancé en juin, avec un débit amélioré de 25% par rapport à la génération précédente et une efficacité d’inférence renforcée de 50%. Le supernode a terminé l’adaptation pour des modèles grand public, dont Wenxin, DeepSeek, GLM et MiniMax, avec une latence de bout en bout optimisée de 50% grâce à une architecture réseau HPN 5.0 mis
GateNewsIl y a 2h
Cerebras fixe son introduction en bourse au-dessus de la fourchette de 150 à 160 dollars, et lève 4,8 milliards de dollars grâce à une demande massive
D’après Bloomberg, Cerebras Systems prévoit de fixer le prix de son introduction en bourse au-dessus de la fourchette de 150-160 dollars américains le 13 mai 2026, avec une demande pour la vente d’actions dépassant plus de 20 fois le nombre d’actions disponibles. Le fabricant de puces d’IA propose 30 millions d’actions et lèverait 4,8 milliards de dollars américains au sommet de la fourchette, ce qui en ferait la plus importante introduction en bourse aux États-Unis cette année, hors placements
GateNewsIl y a 2h