Google TurboQuant: 3-бітна квантизація KV кешу без втрати точності, висока швидкість висновків до 8 разів

За даними моніторингу 1M AI News, дослідницький інститут Google опублікував алгоритм квантового стиснення TurboQuant, який може зменшити обсяг кешу KV великих мовних моделей до 3 бітів, зменшуючи використання пам’яті щонайменше у 6 разів, без необхідності тренування або доопрацювання та без втрати точності моделі. У режимі 4 біт швидкість обчислення уваги на GPU NVIDIA H100 у порівнянні з базовою 32-бітною неквантичною моделлю зросла до 8 разів.

Команда дослідників підтвердила ефективність TurboQuant на довгих контекстних бенчмарках LongBench, Needle In A Haystack, ZeroSCROLLS за допомогою моделей Gemma і Mistral, де алгоритм показав найкращі результати у всіх тестах. Алгоритм складається з двох підалгоритмів: PolarQuant, який за допомогою перетворення у полярні координати усуває пам’ятні витрати традиційних методів квантування, та QJL, що коригує залишкову помилку всього за 1 біт.

Дослідження очолювали Амір Зандієх з Google Research та віце-президент і Fellow Google Вахаб Міррокні у співпраці з KAIST у Південній Кореї та Нью-Йоркським університетом. Результати опублікують на ICLR 2026. Google зазначає, що одним із головних застосувань цієї технології є подолання вузьких місць у кешуванні KV для моделей на кшталт Gemini.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів