Google a présenté le nouvel algorithme TurboQuant : capable de réduire les besoins en mémoire de l'IA de 6 fois, les actions des fabricants de mémoire chutent collectivement

動區BlockTempo

Google publie l’algorithme de compression TurboQuant sans entraînement, affirmant pouvoir réduire la demande en mémoire AI d’au moins 6 fois ; après l’annonce, les actions mémoire ont toutes plongé, mais les analystes ont des avis divergents.
(Contexte : Google prévoit de migrer vers la cryptographie quantique d’ici 2029, six ans avant l’objectif gouvernemental, l’industrie de la cryptographie doit suivre)
(Informations complémentaires : Wall Street Journal : Trump envisage de faire entrer Zuckenberg, Huang Renxun et Ellison dans le PCAST pour former la « équipe nationale d’IA » américaine)

Un nouvel algorithme qui fait plonger les actions du secteur mémoire ? Google Research a officiellement publié le 25 l’algorithme TurboQuant, affirmant qu’il peut quantifier le cache KV des grands modèles de langage (LLM) à seulement 3 bits, sans perte de précision du modèle, et réduire la consommation de mémoire d’au moins 6 fois.

Après l’annonce, le géant de la mémoire Micron a brièvement chuté de 6,1 % lors de la séance, clôturant à 382,09 dollars, un plus bas en trois semaines. Par ailleurs, SanDisk a chuté de 3,5 %, Seagate de 2,59 %, Western Digital de 1,63 %, entraînant une chute généralisée du secteur mémoire.

Les marchés asiatiques ont également subi la pression aujourd’hui : Samsung Electronics a ouvert en baisse de 3,6 %, SK Hynix de 4,5 %. La logique des investisseurs est simple : si les modèles d’IA n’ont plus besoin autant de mémoire, le pouvoir de fixation des prix, soutenu récemment par la pénurie de composants, pourrait s’effondrer.

Analyse technique de TurboQuant : élimination en deux étapes des erreurs, vitesse 8 fois plus rapide

Le cache KV (Key-Value Cache) est le mécanisme central permettant aux LLM de « se souvenir » des données traitées, stockant les informations d’attention précédentes pour éviter de recalculer à chaque génération de token. Mais avec l’extension continue de la fenêtre contextuelle, le cache KV devient un goulot d’étranglement mémoire.

TurboQuant cible précisément ce problème. Google indique que les méthodes traditionnelles de quantification vectorielle génèrent un surcoût d’environ 1 à 2 bits par valeur en mémoire, mais TurboQuant élimine complètement cette charge grâce à un processus en deux étapes :

Première étape, utilise la méthode PolarQuant pour faire tourner les vecteurs de données, permettant une compression de haute qualité.

Deuxième étape, applique l’algorithme Quantized Johnson-Lindenstrauss pour éliminer les erreurs résiduelles.

Dans les tests de référence sur GPU H100 de Nvidia, TurboQuant en 4 bits offre une performance 8 fois supérieure à celle des clés non quantifiées en 32 bits lors du calcul des scores d’attention, tout en compressant la mémoire cache KV d’au moins 6 fois.

Plus important encore, cet algorithme ne nécessite aucun entraînement ni ajustement, avec un coût supplémentaire très faible, ce qui le rend directement déployable en inference et dans les systèmes de recherche vectorielle à grande échelle. Selon les responsables, le papier associé sera présenté lors de la conférence « ICLR 2026 » en avril.

Paradoxe de Jevons : la demande en mémoire pourrait en fait augmenter ?

Cependant, tout le monde ne partage pas la vision d’une « fin de la mémoire ».

Certains analystes évoquent le paradoxe de Jevons : lorsque la technologie réduit le coût d’utilisation des ressources, la demande globale peut en réalité augmenter car ces ressources deviennent plus accessibles. Les partisans pensent que si TurboQuant peut réellement réduire considérablement la barrière à l’inférence IA, cela accélérera la diffusion des modèles IA, entraînant une demande accrue en mémoire, et non une réduction.

L’analyste de Lynx Equity Strategies a même déclaré dans un rapport : « La méthode décrite par Google ne réduira presque pas la demande en mémoire et en mémoire flash dans les 3 à 5 prochaines années, car l’offre reste extrêmement limitée. » Par conséquent, l’institution maintient l’objectif de 700 dollars pour Micron.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire