Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
CFD
CFD-деривативи на акції США
Акції США
Отримайте доступ до реальних акцій США та ETF
Акції Гонконгу
Торгуйте якісними акціями з лістингом у Гонконгу
Корейські акції
SK Hynix
Торгуйте реальними корейськими акціями та інвестуйте в популярні активи
Ф'ючерси на акції
Високе кредитне плече, торгівля 24/7
Токенізовані акції
Забезпечено реальними фондовими активами
IPO Access
Отримайте повний доступ до глобальних IPO акцій
GUSD
Мінтіть GUSD для отримання дохідності від казначейських RWA
Активності з акціями
Торгуйте популярними акціями та відкривайте щедрі аірдропи
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
IPO Access
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Gate Wealth
візьміть під контроль своє фінансове майбутнє
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
USD1 8% річних
Без блоку, вивід у будь-який час.
Акції
Центр діяльності
Беріть учать та отримуйте винагороди
Реферал
20 USDT
Запрошуйте друзів та отримуйте бонуси
Партнерська програма
Ексклюзивні комісійні винагороди
Gate Booster
Зростайте та отримуйте аірдропи
Оголошення
Оновлення платформи в реальному часі
Блог Gate
Статті про криптоіндустрію
VIP послуги
Величезні знижки на комісії
Управління активами
Універсальне рішення для управління активами
Інституційний
Рішення цифрових активів для бізнесу
Розробники (API)
Підключається до екосистеми додатків Gate
Позабіржовий банківський переказ
Поповнюйте та виводьте фіат
Брокерська програма
Щедрі механізми знижок API
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
Щойно DeepSeek V4 оновив DSpark, швидкість інференції зросла на 80%.
Щойно відбулося оновлення DeepSeek V4.
Було представлено новий фреймворк спекулятивного декодування (Speculative Decoding) DSpark, а також синхронно відкрито вихідний код повностекового спекулятивного декодування DeepSpec, що підтримує цю версію.
DeepSeek-V4-Pro-DSpark — це не модель з абсолютно новою архітектурою, а модуль спекулятивного декодування, доданий на основі DeepSeek-V4-Pro. Основний акцент цього оновлення — на інженерній реалізації, а не на ітерації самих можливостей моделі.
DSpark уже розгорнуто в реальному онлайн-трафіку DeepSeek-V4 (Flash та Pro), що значно прискорює швидкість виведення великих мовних моделей (LLM).
Технічний звіт: «DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation»
Посилання на технічний звіт: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
Основною метою DSpark є вирішення проблем затримки та пропускної здатності при виведенні LLM у виробничих середовищах (особливо у сценаріях з високим навантаженням). Простіше кажучи, DSpark успішно поєднує високопродуктивну «паралельну генерацію» з адаптивною «перевіркою, чутливою до навантаження».
Спекулятивне декодування — це техніка прискорення виведення великих мовних моделей без зміни розподілу вихідних даних моделі. Основна ідея полягає у введенні легкої «моделі чернетки» (draft model), яка попередньо генерує кілька кандидатів-токенів, а потім цільова модель (target model) масово перевіряє та приймає ці кандидати, перетворюючи послідовну генерацію токенів на паралельну пакетну перевірку, що значно зменшує наскрізну затримку.
На цій основі інновація DSpark полягає у впровадженні напівавторегресійної архітектури генерації (Semi-Autoregressive Generation): вона зберігає високу пропускну здатність паралельної моделі чернетки, одночасно додаючи легкий послідовний модуль для моделювання залежностей між токенами всередині блоку, щоб пом'якшити проблему зниження рівня прийняття в наступних позиціях паралельної моделі чернетки.
Крім того, використовується перевірка з плануванням на основі впевненості з урахуванням апаратного забезпечення (Confidence-Scheduled Verification): попередні спекулятивні декодери зазвичай сліпо відправляли всі згенеровані токени чернетки на перевірку. При високому навантаженні системи ці хвостові токени, які з дуже високою ймовірністю будуть відхилені, серйозно марнують дорогоцінну обчислювальну потужність пакетної обробки. DSpark вводить головку впевненості (Confidence Head) для оцінки ймовірності виживання кожного токена. У поєднанні з апаратно-орієнтованим планувальником префіксів система може динамічно адаптувати оптимальну довжину перевірки для кожного запиту на основі характеристик пропускної здатності двигуна в реальному часі, виділяючи обчислювальну потужність лише токенам з найбільш очікуваною віддачею.
Для впровадження в реальну онлайн-інфраструктуру планувальник DSpark використовує асинхронний механізм, сумісний з нульовими витратами планування (Zero-Overhead Scheduling, ZOS) та безперервним відтворенням графів CUDA. Він використовує історичні прогнози з двох попередніх кроків для визначення поточної динамічної довжини усічення, що приховує затримку планування, запобігає простою конвеєра GPU та гарантує повне безвтратне відновлення розподілу вихідних даних цільової моделі.
У тестах, що охоплюють математичні міркування, генерацію коду та повсякденні діалоги, DSpark значно перевершив сучасні авторегресійні моделі (Eagle3) та паралельні моделі чернетки (DFlash). Наприклад, на цільових моделях серії Qwen3 (4B, 8B, 14B) його середня довжина прийняття була на 26.7%–30.9% вищою, ніж у Eagle3, і на 16.3%–18.4% вищою, ніж у DFlash.
Порівняно з попереднім поколінням розгорнутого однокрокового виробництва (MTP-1), при збереженні тієї ж загальної пропускної здатності DSpark підвищив швидкість генерації для користувачів на 60%–85% (модель Flash) та 57%–78% (модель Pro).
Разом з DSpark також відкрито вихідний код DeepSpec — це повностекова кодова база для навчання та оцінки моделей чернеток спекулятивного декодування. Це «відкрита інфраструктура», яка втілює цю схему та інші передові алгоритми, включаючи інструменти підготовки даних, реалізацію моделей чернеток, код навчання та скрипти оцінки.
DeepSpec розбиває загальний процес на три етапи: підготовка даних, навчання та оцінка. Етапи повинні виконуватися послідовно, а вихідні дані попереднього етапу слугують вхідними для наступного.
На етапі підготовки даних необхідно завантажити дані запитів (prompt data), повторно згенерувати відповіді цільової моделі за допомогою механізму виведення та побудувати кеш цільової моделі (target cache). Варто зазначити, що при використанні стандартної конфігурації Qwen/Qwen3-4B обсяг кешу цільової моделі може сягати приблизно 38 ТБ, тому перед використанням необхідно ретельно оцінити ресурси сховища.
Етап навчання запускається через bash scripts/train/train.sh. Цей скрипт викликає train.py та запускає окремий процес (worker) для кожної видимої GPU. Користувач може вибрати різні алгоритми та конфігурації цільової моделі в каталозі config/, вказавши config_path. Проект також підтримує налаштування навчання через перевизначення config_path, target_cache_dir та використання --opts для зміни окремих полів конфігурації.
Що стосується апаратного забезпечення, стандартна конфігурація та скрипти DeepSpec розраховані на середовище з 8 GPU на одному вузлі. Якщо кількість GPU менша, користувачеві необхідно відповідно зменшити кількість видимих GPU у змінній CUDA_VISIBLE_DEVICES.
Етап оцінки запускається через bash scripts/eval/eval.sh. Скрипт оцінки використовує навчену контрольну точку (checkpoint) моделі чернетки для вимірювання рівня прийняття на кількох еталонних завданнях спекулятивного декодування. Наразі проект перераховує такі набори даних для оцінки: GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca та Arena-Hard-v2, що охоплюють різні типи завдань, такі як математичні міркування, генерація коду, діалогові здібності та комплексні питання-відповіді.
З точки зору алгоритмів, DeepSpec наразі включає три вбудовані моделі чернеток: DSpark, DFlash та Eagle3. Що стосується серій цільових моделей, проект наразі підтримує Qwen3 та Gemma.
Відкриття вихідного коду DeepSpec інтегрує інженерну практику спекулятивного декодування, яка раніше часто розпорошувалася всередині різних дослідницьких груп, у єдиний відтворюваний та масштабований стандартизований інструментарій. Для дослідників та інженерів, які прагнуть прискорити виведення власних великих моделей, це означає можливість безпосередньо навчати власні моделі чернеток на зрілому фреймворку, пропускаючи значний обсяг повторної роботи зі створення інфраструктури.
Джерело: Machine Heart
Попередження про ризики та відмова від відповідальності