Google внедряет многотокенное прогнозирование на Pixel 9 и 10, повышая скорость вывода Gemini Nano более чем на 50%

По данным Beating, Google развернул архитектуру Multi-Token Prediction (MTP) на устройствах Pixel 9 и Pixel 10, значительно ускорив работу модели Gemini Nano v3 на устройстве. Новая архитектура увеличила скорость вывода более чем на 50%, сохранив при этом выравнивание безопасности модели и качество вывода.

Механизм zero-copy позволяет головке предсказания напрямую повторно использовать кэшированные признаки основной модели через перекрестное внимание, устраняя накладные расходы на отдельный кэш ключ-значений традиционных черновых моделей. Такая конструкция сэкономила примерно 130 МБ памяти, а также снизила задержку запуска. В реальных приложениях, таких как суммаризация уведомлений и умные ответы, MTP достиг увеличения частоты принятия токенов на 55%, уменьшив частоту пробуждения процессора и снизив энергопотребление системы.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев