Beating社によると、GoogleはPixel 9およびPixel 10デバイスにMulti-Token Prediction (MTP)アーキテクチャを導入し、オンデバイスのGemini Nano v3モデルを大幅に高速化しました。
新しいアーキテクチャは、モデルの安全性アライメントと出力品質を維持しながら、推論速度を50%以上向上させました。
ゼロコピー機構により、予測ヘッドはクロスアテンションを通じてメインモデルのキャッシュされた特徴を直接再利用でき、従来のドラフトモデルにおける個別のキーバリューキャッシュのオーバーヘッドを排除します。
この設計により、起動レイテンシを低減しつつ、約130MBのメモリを節約しました。
通知の要約やスマート返信などの実世界のアプリケーションでは、MTPはトークン受付率を55%向上させ、プロセッサのウェイクアップ頻度を減らし、システム消費電力を低減しました。