Google lance TurboQuant, compressant l’utilisation de la mémoire des modèles de 6 fois et accélérant l’inférence de 8 fois, suscitant des discussions sur la baisse des actions liées à la mémoire et le changement de la structure de la demande.
Google a lancé l’algorithme TurboQuant, qui compresse l’utilisation de la mémoire des grands modèles de langage d’au moins 6 fois, tout en augmentant la vitesse de calcul de l’inférence jusqu’à 8 fois sans sacrifier la précision du modèle. Le marché interprète rapidement cette technologie comme une “destruction du côté de la demande”, la logique derrière étant assez directe : si la demande de mémoire des modèles d’IA pendant la phase d’inférence est compressée plusieurs fois, cela signifie que la courbe de croissance de la demande future des centres de données pour la DRAM, la HBM et même le stockage NAND pourrait subir une révision structurelle à la baisse.
Après l’annonce, les actions liées à la mémoire et au stockage ont connu une baisse synchronisée, avec SanDisk (SNDK) en baisse de 3,5 %, Micron Technology (MU) en baisse de 3,4 %, et Western Digital (WDC) en baisse de 1,63 % ; dans la chaîne d’approvisionnement asiatique, Samsung Electronics a chuté de 4,71 %, tandis que SK Hynix a enregistré une baisse de 6,23 %. Certains points de vue estiment également que TurboQuant pourrait changer davantage l’“efficacité de l’utilisation des ressources” plutôt que de simplement affaiblir la demande.
Selon les explications de l’équipe de recherche de Google, TurboQuant est un algorithme de quantification conçu pour les grands modèles de langage et les systèmes de recherche vectorielle, centré sur la compression significative du “cache clé-valeur” et des structures de données de vecteurs à haute dimension, qui consomment le plus de ressources dans les modèles d’IA. Lors des tests, cette technologie a pu réduire l’utilisation de la mémoire d’au moins 6 fois, tout en augmentant la vitesse de calcul de l’inférence jusqu’à 8 fois sans sacrifier la précision du modèle.
Cette avancée touche directement le goulot d’étranglement clé des infrastructures d’IA actuelles. L’expansion de l’IA générative au niveau de la puissance de calcul dépend fortement de mémoires à large bande passante comme la HBM, afin d’héberger les poids du modèle et le cache KV à grande échelle, évitant ainsi que la mémoire ne se bloque pendant le processus d’inférence. Cependant, TurboQuant combine des méthodes telles que PolarQuant et Johnson-Lindenstrauss quantifié (QJL) pour réaliser cette compression avec presque “aucun coût supplémentaire en mémoire”, équivalant à réaliser les mêmes calculs, voire plus efficacement, avec moins de ressources matérielles.
Le marché interprète rapidement cette technologie comme une “destruction du côté de la demande”. Après l’annonce, les actions liées à la mémoire et au stockage ont connu une baisse synchronisée, avec SanDisk (SNDK) en baisse de 3,5 %, Micron Technology (MU) en baisse de 3,4 %, et Western Digital (WDC) en baisse de 1,63 % ; dans la chaîne d’approvisionnement asiatique, Samsung Electronics a chuté de 4,71 %, tandis que SK Hynix a enregistré une baisse de 6,23 %.
La logique derrière est assez directe : si la demande de mémoire des modèles d’IA pendant la phase d’inférence est compressée plusieurs fois, cela signifie que la courbe de croissance de la demande future des centres de données pour la DRAM, la HBM et même le stockage NAND pourrait subir une révision structurelle à la baisse. En particulier, dans le contexte où l’industrie de l’IA passe progressivement d’une orientation “formation” à une orientation “inférence”, l’impact marginal des technologies d’optimisation de l’efficacité sera amplifié.
Cependant, d’autres points de vue estiment que TurboQuant pourrait changer davantage l’“efficacité de l’utilisation des ressources” plutôt que de simplement affaiblir la demande. Avec la baisse des coûts et la réduction des latences, les scénarios d’application de l’IA pourraient en fait s’élargir, entraînant ainsi une croissance continue de la demande globale de puissance de calcul, formant une structure de “baisse de la demande unitaire, augmentation de la demande totale”. Les grandes usines de mémoire ont déjà vendu toute leur capacité cette année, peut-être que le marché doit se demander : quelle est vraiment la limite de croissance de l’IA ?