Baseten представляє метод компресії still KV Cache, що забезпечує 200-кратне стиснення

2026-06-12 10:53:27

Команда дослідників Baseten із Beating оприлюднила Still — метод стиснення KV cache, який забезпечує до 200x стиснення за один прямий прохід без онлайн-оптимізації чи оновлень градієнтів. Still інтегрує легкі компресори Perceiver, розмір яких становить приблизно 1% від параметрів базової моделі, у кожен шар Transformer, застосовуючи крос-взаємодію (cross-attention) до повного KV cache, щоб генерувати стиснений cache напряму. Перевірений на моделях Qwen і Gemma в контекстних вікнах від 8k до 64k з коефіцієнтами стиснення від 8x до 200x, Still зберіг високу точність, водночас перевершив порівнянні методи на кшталт SnapKV, H2O та KV-Distill у бенчмарку RULER.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

3год тому

Moonshot AI випускає кодову модель Kimi K2.7, продуктивність зросла на 21,8%, а версія з високою швидкістю виходить 15 червня

5год тому

Tencent Cloud знижує ціни на моделі MiniMax-M3 та Hy-MT2-Pro на максимум 66,67% починаючи з 12 червня

5год тому

Google Antigravity запускає дашборд квот і скидає щотижневі ліміти Gemini

21год тому

Google залучає Samsung для виробництва чіпів Icefish AI наступного покоління з використанням 2-нанометрового техпроцесу

06-11 06:13

Anthropic скасовує тихі зниження продуктивності Claude, вибачається після критики з боку спільноти

Поглиблений аналіз