Baseten представляє метод компресії still KV Cache, що забезпечує 200-кратне стиснення

Команда дослідників Baseten із Beating оприлюднила Still — метод стиснення KV cache, який забезпечує до 200x стиснення за один прямий прохід без онлайн-оптимізації чи оновлень градієнтів. Still інтегрує легкі компресори Perceiver, розмір яких становить приблизно 1% від параметрів базової моделі, у кожен шар Transformer, застосовуючи крос-взаємодію (cross-attention) до повного KV cache, щоб генерувати стиснений cache напряму. Перевірений на моделях Qwen і Gemma в контекстних вікнах від 8k до 64k з коефіцієнтами стиснення від 8x до 200x, Still зберіг високу точність, водночас перевершив порівнянні методи на кшталт SnapKV, H2O та KV-Distill у бенчмарку RULER.
Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів