Google представила TurboQuant, который в 6 раз сокращает объем памяти модели и в 8 раз ускоряет вывод, что вызвало падение акций производителей памяти и обсуждение изменений в структуре спроса.
Google представила алгоритм TurboQuant, который сокращает объем памяти больших языковых моделей как минимум в 6 раз, одновременно повышая скорость вывода до 8 раз без ущерба для точности модели. Рынок быстро интерпретировал эту технологию как «разрушение со стороны спроса», и логика здесь довольно проста: если потребность AI-моделей в памяти во время вывода сокращается в несколько раз, это означает, что в будущем кривые роста спроса центров обработки данных на DRAM, HBM и даже NAND-хранение могут подвергнуться структурному пересмотру.
После выхода новости акции, связанные с памятью и хранением, упали, включая SanDisk (SNDK), упавший на 3,5%, Micron Technology (MU), упавший на 3,4%, Western Digital (WDC), упавший на 1,63%; в азиатской цепочке поставок Samsung Electronics упала на 4,71%, а SK Hynix упала еще больше на 6,23%. Есть также мнение, что TurboQuant скорее изменит «эффективность использования ресурсов», а не просто ослабит спрос.
Согласно объяснению исследовательской группы Google, TurboQuant — это система квантования (quantization), разработанная для больших языковых моделей и систем векторного поиска, основная идея которой заключается в значительном сокращении «key-value cache» и многомерных векторных структур данных, которые требуют много ресурсов в AI-моделях. В тестах эта технология могла сократить объем памяти как минимум в 6 раз, одновременно увеличивая скорость вычислений до 8 раз без ущерба для точности модели.
Этот прорыв непосредственно затрагивает ключевую проблему текущей инфраструктуры AI. Расширение генеративного AI на уровне вычислительной мощности сильно зависит от высокоскоростной памяти, такой как HBM, для поддержки весов модели и масштабного KV cache, чтобы избежать зависания памяти в процессе вывода. Однако TurboQuant, комбинируя методы PolarQuant и Quantized Johnson-Lindenstrauss (QJL), завершает сжатие с почти «нулевыми дополнительными затратами на память», что эквивалентно выполнению таких же или даже более эффективных вычислений с меньшими аппаратными ресурсами.
Рынок быстро интерпретировал эту технологию как «разрушение со стороны спроса». После выхода новости акции, связанные с памятью и хранением, упали, включая SanDisk (SNDK), упавший на 3,5%, Micron Technology (MU), упавший на 3,4%, Western Digital (WDC), упавший на 1,63%; в азиатской цепочке поставок Samsung Electronics упала на 4,71%, а SK Hynix упала еще больше на 6,23%.
Логика здесь довольно проста: если потребность AI-моделей в памяти во время вывода сокращается в несколько раз, это означает, что в будущем кривые роста спроса центров обработки данных на DRAM, HBM и даже NAND-хранение могут подвергнуться структурному пересмотру. Особенно на фоне того, что индустрия AI постепенно переходит от «обучающего» к «выводящему» подходу, предельное влияние технологий оптимизации эффективности будет усилено.
Тем не менее, есть мнения, что TurboQuant скорее изменит «эффективность использования ресурсов», а не просто ослабит спрос. С снижением затрат и уменьшением задержек, сценарии применения AI могут еще больше расшириться, что в свою очередь приведет к продолжающемуся росту общего спроса на вычислительную мощность, создавая структуру «снижения единичного спроса и роста общего спроса». У крупных производителей памяти в этом году мощностей уже распродано, возможно, рынок должен задуматься: каков же потолок роста AI?