Segundo a Beating, a Google implementou a arquitetura Multi-Token Prediction (MTP) nos dispositivos Pixel 9 e Pixel 10, acelerando significativamente o modelo Gemini Nano v3 no dispositivo. A nova arquitetura aumentou a velocidade de inferência em mais de 50%, preservando o alinhamento de segurança e a qualidade de saída do modelo.
O mecanismo de zero-copy permite que a cabeça de predição reutilize diretamente as funcionalidades em cache do modelo principal através de cross-attention, eliminando a sobrecarga de cache chave-valor separada dos modelos de rascunho tradicionais. Este design economizou aproximadamente 130 MB de memória enquanto reduzia a latência de inicialização. Em aplicações do mundo real, como sumarização de notificações e respostas inteligentes, o MTP alcançou um aumento de 55% na taxa de aceitação de tokens, reduzindo a frequência de ativação do processador e diminuindo o consumo de energia do sistema.