Google implanta Predição de Múltiplos Tokens no Pixel 9 e 10, aumentando a velocidade de inferência do Gemini Nano em mais de 50%

Segundo a Beating, o Google implementou a arquitetura Multi-Token Prediction (MTP) nos dispositivos Pixel 9 e Pixel 10, acelerando significativamente o modelo Gemini Nano v3 no dispositivo. A nova arquitetura aumentou a velocidade de inferência em mais de 50%, preservando o alinhamento de segurança e a qualidade de saída do modelo.

O mecanismo de cópia zero permite que o cabeçalho de previsão reutilize diretamente as features em cache do modelo principal por meio de atenção cruzada, eliminando a sobrecarga separada de cache de chave-valor dos modelos de rascunho tradicionais. Esse design economizou aproximadamente 130 MB de memória, além de reduzir a latência de inicialização. Em aplicações reais, como sumarização de notificações e respostas inteligentes, o MTP alcançou um aumento de 55% na taxa de aceitação de tokens, reduzindo a frequência de ativação do processador e diminuindo o consumo de energia do sistema.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários