Google випустила алгоритм сжаття TurboQuant без необхідності тренування, заявляючи, що він може зменшити потребу в пам’яті для ШІ щонайменше у 6 разів; після оголошення акції пам’яті різко впали, але аналітики мають різні думки.
(Передісторія: Google планує завершити міграцію квантового шифрування до 2029 року — на шість років раніше урядової цілі, галузь криптографії має йти в ногу)
(Додатковий фон: Wall Street Journal: Трамп планує призначити Зукерберга, Хуана Хену і Елісона до PCAST для створення «національної команди США з ШІ»)
Новий алгоритм спричинив крах акцій пам’яті? Google Research 25 числа офіційно представила алгоритм стиснення TurboQuant, який стверджує, що може квантувати KV-кеш великих мовних моделей (LLM) до всього 3 бітів без втрати точності моделі, зменшуючи використання пам’яті щонайменше у 6 разів.
Після оголошення акції гіганти пам’яті Micron 25 числа різко впали на 6.1% у торгівлі, закрившись на рівні 382.09 доларів — найнижчий рівень за три тижні. Інші компанії: Sandisk — знизилася на 3.5%, Seagate — на 2.59%, Western Digital — на 1.63%, що спричинило загальний крах сектору пам’яті.
Азійські ринки сьогодні також зазнали тиску: Samsung Electronics відкрилася з падінням на 3.6%, SK Hynix — на 4.5%. Інвестори логічно роблять висновки: якщо ШІ-моделі більше не потребуватимуть так багато пам’яті, то поточний сильний ціновий вплив, зумовлений дефіцитом компонентів, може бути поставлений під сумнів.
KV-кеш (Key-Value Cache) — це ключовий механізм, що дозволяє LLM «запам’ятовувати» оброблені дані, зберігаючи попередні уваги, щоб не повторювати обчислення при генерації кожного токена. Однак із розширенням контекстного вікна KV-кеш став серйозною перешкодою для пам’яті.
TurboQuant спрямований саме на цю проблему. Google зазначає, що традиційні методи векторного квантування додають у пам’ять додаткові 1-2 біти на кожне число, а TurboQuant усуває цю навантаження у двоступеневому процесі:
Перший етап — застосування PolarQuant для обертання векторів даних, що забезпечує високоякісне стиснення.
Другий етап — використання квантизованого алгоритму Johnson-Lindenstrauss для усунення залишкових похибок.
У тестах на GPU NVIDIA H100 4-бітний TurboQuant показав у 8 разів вищу продуктивність при обчисленні уваги порівняно з неквантифікованими 32-бітними ключами, а обсяг пам’яті для KV-кеша зменшився щонайменше у 6 разів.
Ще важливіше, що цей алгоритм не потребує тренування або додаткового налаштування, має дуже низькі додаткові витрати і може бути безпосередньо впроваджений у системи для інференції та масштабного пошуку векторів. Офіційно заявлено, що відповідна стаття буде опублікована на конференції ICLR 2026 у квітні.
Однак не всі погоджуються з концепцією «кінець пам’яті».
Деякі аналітики цитують парадокс Джевонса: коли технології знижують витрати ресурсів, ресурси стають більш доступними і, відповідно, їхній попит зростає. Прихильники вважають, що якщо TurboQuant справді знизить бар’єри для інференції ШІ, це прискорить поширення моделей ШІ і, навпаки, сприятиме зростанню попиту на пам’ять, а не її зменшенню.
Аналітик Lynx Equity Strategies у своєму звіті прямо зазначив: «Метод, описаний Google, у найближчі 3-5 років майже не зменшить попит на пам’ять і флеш-пам’ять, оскільки пропозиція залишається дуже обмеженою». Тому компанія зберігає цільову ціну Micron на рівні 700 доларів.