Команда Мита Кайминга Хе выпустила модель диффузии языка ELF с 45 млрд токенов обучения

По словам Beating, команда МИТ Кайминга Хэ недавно выпустила ELF (Embedded Language Flows) — модель диффузии языка, которая отходит от авторегрессионного подхода «предсказывать следующий токен», используемого моделями в стиле GPT. Вместо этого ELF выполняет генерацию текста в непрерывном пространстве встраиваний, переводя в дискретные токены только на последнем шаге.

В бенчмарках безусловной генерации OpenWebText модель ELF-B с 105 млн параметров достигла примерно 24,1 перплексити генерации (Gen. PPL) при 32-шаговом семплировании, обойдя несколько базовых моделей дискретной и непрерывной диффузии языка. Примечательно, что ELF-B понадобилось только примерно 45 миллиардов обучающих токенов — примерно на один порядок меньше, чем сопоставимые методы, которые обычно превышают 500 миллиардов токенов.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Samsung планирует массовое производство модулей памяти для AI-серверов CXL 3.1 в Q4

По данным The Korea Herald, Samsung Electronics планирует начать массовое производство модулей памяти CXL 3.1 для AI-серверов в четвертом квартале после отгрузок образцов в третьем квартале. Модуль CMM-D 3.1 объединяет DRAM и контроллер CXL на одной плате, обеспечивая до 1 терабайта при пропускной способности 72 гигабайта в секунду на PCIe 6.0. Ранее Samsung поставляла образцы CXL 2.0 более чем 40 компаниям, включая Microsoft и Amazon.

GateNews1м назад

Бывший исследователь Alibaba по ИИ Линьцзюнь Линь запускает новую AI-лабораторию на сумму около 2 миллиардов долларов

По данным The Information, Линьцзюнь Линь, бывший исследователь ИИ в Alibaba, недавно основал новую лабораторию искусственного интеллекта. Оценка стоимости стартапа составляет примерно 2 миллиарда долларов.

GateNews3м назад

Anthropic ведёт переговоры о покупке стартапа с инструментами для разработчиков Stainless как минимум за 300 млн долларов

По данным The Information, Anthropic ведёт продвинутые переговоры о покупке стартапа Stainless по разработке инструментов как минимум за 300 миллионов долларов. Инструменты разработчика Stainless были внедрены OpenAI и Google.

GateNews23м назад

Эндрю Ын: «ИИ не вызовет массовой безработицы», спрос на найм в сфере софтверной разработки остается сильным

Известный в сфере ИИ профессор и основатель DeepLearning.AI Эндрю Нг (Andrew Ng, у нас часто упоминается как Инь Юн-да / 吳恩達) 12 мая в X и в электронном бюллетене The Batch опубликовал пост с утверждением, что «ИИ не вызовет массовую безработицу (jobpocalypse)», напрямую опровергая нарратив о том, что ИИ якобы приведёт к всплеску увольнений. Согласно оригинальному твиту Andrew Ng, эта публикация получила свыше 2,600 лайков и стала одной из самых обсуждаемых в то время позиций в сообществе AI. Кл

ChainNewsAbmedia1ч назад

Супернода Kunlun Chip Tian Chi на 256 карт от Baidu запустится в июне с улучшением пропускной способности на 25%

По данным Baidu, 13 мая в рамках конференции разработчиков Create 2026 компания объявила, что её суперузел Kunlun Chip Tian Chi на 256 карт официально запустится в июне. Пропускная способность будет улучшена на 25% по сравнению с предыдущим поколением, а эффективность вывода — на 50%. Суперузел завершил адаптацию для популярных моделей, включая Wenxin, DeepSeek, GLM и MiniMax. Показатель сквозной задержки оптимизирован на 50% за счёт обновлённой сетевой архитектуры HPN 5.0. Он поддерживает созда

GateNews2ч назад

Cerebras оценила IPO выше диапазона $150–160, привлекла $4,8 млрд на огромном спросе

По данным Bloomberg, Cerebras Systems планирует оценить свой IPO выше диапазона $150–160 13 мая 2026 года, при этом спрос на продажу акций вырос более чем в 20 раз относительно доступного объема акций. Компания, выпускающая ИИ-чипы, предлагает 30 миллионов акций и привлечёт 4,8 миллиарда долларов по верхней границе диапазона, что сделает её крупнейшим IPO в США в этом году без учёта частных размещений. Компания сообщила о чистой прибыли в размере 87,9 миллиона долларов при выручке 510 миллионов

GateNews2ч назад
комментарий
0/400
Нет комментариев