Le 25 mars, les valeurs technologiques américaines ont enregistré des gains généralisés, avec le Nasdaq 100 Index en hausse. Pourtant, un groupe d’actions a dévié de la tendance et a essuyé des pertes :
SanDisk a reculé de 3,50 %, Micron de 3,4 %, Seagate de 2,59 % et Western Digital de 1,63 %. L’ensemble du secteur du stockage semblait comme privé d’électricité en pleine fête.
La raison : un article scientifique — ou plus exactement, la mise en lumière officielle d’une nouvelle étude par Google Research.
Pour en mesurer l’impact, il faut d’abord comprendre un concept rarement abordé dans l’infrastructure IA : KV Cache.
Quand vous interagissez avec un grand modèle de langage, il ne repart pas de zéro à chaque question. Il conserve le contexte complet de la conversation en mémoire sous forme de « paires clé-valeur » — c’est le KV Cache, la mémoire de travail à court terme du modèle.
Le problème, c’est que le KV Cache croît proportionnellement à la longueur de la fenêtre de contexte. Lorsque cette fenêtre atteint le million de tokens, la mémoire GPU consommée par le KV Cache peut même dépasser les paramètres du modèle. Pour les clusters d’inférence qui servent de nombreux utilisateurs simultanément, cela crée un véritable goulot d’étranglement infrastructurel quotidien et fait grimper les coûts.
La version originale de l’article est parue sur arXiv en avril 2025 et sera publiée officiellement à l’ICLR 2026. Google Research a nommé l’algorithme TurboQuant — une méthode de quantification sans perte qui compresse le KV Cache à 3 bits, réduisant la consommation de mémoire d’au moins six fois. Elle ne nécessite ni entraînement ni ajustement et fonctionne immédiatement.
L’approche technique comporte deux étapes principales :
Étape 1 : PolarQuant. Au lieu d’utiliser le système cartésien classique pour représenter les vecteurs, elle les convertit en coordonnées polaires — un « rayon » et un ensemble « d’angles ». Cela simplifie radicalement la géométrie de l’espace à haute dimension, permettant une quantification ultérieure avec moins de distorsion.
Étape 2 : QJL (Quantized Johnson-Lindenstrauss). Après la compression principale assurée par PolarQuant, TurboQuant applique une transformation QJL à un bit pour corriger sans biais l’erreur résiduelle, garantissant une estimation précise du produit scalaire — essentielle pour le mécanisme d’attention du Transformer.
Les résultats : Sur le benchmark LongBench, qui couvre la réponse à des questions, la génération de code et la synthèse, TurboQuant a égalé ou surpassé le meilleur baseline existant, KIVI. Sur les tâches de recherche « aiguille dans une botte de foin », il a obtenu un rappel parfait. Sur le H100 de NVIDIA, TurboQuant en 4 bits a accéléré la logique d’attention jusqu’à 8 fois.
Les méthodes de quantification classiques ont un défaut majeur : chaque bloc de données compressé exige un stockage supplémentaire pour les « constantes de quantification » indiquant comment décompresser, ce qui ajoute 1 à 2 bits par valeur. Cela paraît minime, mais avec des contextes de millions de tokens, ces bits s’accumulent vite. TurboQuant élimine totalement ce surcoût grâce à la rotation géométrique de PolarQuant et à la correction résiduelle à un bit de QJL.
Les conséquences sont difficiles à ignorer : un modèle qui nécessitait huit H100 pour servir un contexte d’un million de tokens pourrait, en théorie, n’en demander que deux. Les fournisseurs d’inférence pourraient traiter plus de six fois plus de requêtes simultanées de long contexte avec le même matériel.
Cela remet directement en cause le principal narratif du secteur du stockage.
Depuis deux ans, Seagate, Western Digital et Micron ont profité de la vague d’investissements IA pour une raison unique : À mesure que les grands modèles « retiennent » davantage, la demande de mémoire avec des fenêtres de contexte longues semble sans limite, et la demande de stockage est censée exploser. L’action de Seagate a grimpé de plus de 210 % en 2025, et sa capacité de production 2026 était déjà vendue.
L’arrivée de TurboQuant remet directement en question cette hypothèse.
L’analyste technologique de Wells Fargo, Andrew Rocha, résume : « À mesure que les fenêtres de contexte s’agrandissent, les données stockées dans le KV Cache augmentent de façon explosive, et la demande de mémoire s’intensifie. TurboQuant attaque cette courbe de coûts de front… Si son adoption devient large, il remet fondamentalement en cause la quantité de capacité mémoire réellement nécessaire. »
Mais Rocha souligne aussi une condition clé : SI.
Le marché réagit-il de façon excessive ? Très probablement, oui — du moins en partie.
Premièrement, le titre “accélération x8” est trompeur. Plusieurs analystes ont relevé que cette accélération de 8 fois est mesurée par rapport à des systèmes anciens non quantifiés en 32 bits, et non aux systèmes déjà optimisés en place. Le gain de performance est réel, mais moins spectaculaire que ne le suggèrent les titres.
Deuxièmement, l’article n’a testé que de petits modèles. Toutes les évaluations de TurboQuant ont utilisé des modèles jusqu’à 8 milliards de paramètres. Ce qui inquiète réellement les fournisseurs de stockage, ce sont les modèles de 70 milliards voire 400 milliards de paramètres, où le KV Cache devient énorme. Les performances de TurboQuant à cette échelle restent inconnues.
Troisièmement, Google n’a publié aucun code officiel. À ce jour, TurboQuant n’est pas disponible dans vLLM, llama.cpp, Ollama, ni aucun framework d’inférence grand public. Des développeurs de la communauté ont réalisé des versions préliminaires sur la base des mathématiques de l’article, et un premier replicateur a noté que si la correction d’erreur de QJL n’est pas correctement faite, la sortie peut devenir illisible.
Cela ne signifie pas pour autant que les inquiétudes du marché sont infondées.
Il s’agit d’un réflexe collectif du marché, lié à l’événement DeepSeek en 2025. Cet épisode a appris à tous une leçon sévère : Les avancées en efficacité algorithmique peuvent bouleverser instantanément les narratifs liés au matériel coûteux. Depuis, toute percée d’efficacité venant d’un grand laboratoire IA déclenche un réflexe sur les actions hardware.
De plus, ce signal vient de Google Research — pas d’un laboratoire universitaire obscur. Google a la capacité d’ingénierie pour transformer des articles en outils de production, et est lui-même l’un des plus grands consommateurs mondiaux d’inférence IA. Une fois TurboQuant déployé en interne, il pourrait discrètement redéfinir la stratégie d’approvisionnement de serveurs pour Waymo, Gemini et Google Search.
Un débat classique mérite d’être soulevé : Paradoxe de Jevons.
L’économiste du XIXe siècle William Jevons a observé que les progrès d’efficacité des machines à vapeur n’ont pas réduit la consommation de charbon britannique — elle a explosé. La baisse des coûts grâce à l’efficacité a stimulé une adoption beaucoup plus large.
Les partisans soutiennent : Si Google permet à un modèle de fonctionner sur 16 Go de VRAM, les développeurs ne s’arrêteront pas là — ils utiliseront les ressources libérées pour exécuter des modèles six fois plus complexes, traiter des ensembles de données multimodales plus vastes, et prendre en charge des contextes encore plus longs. Au final, l’efficacité logicielle débloque une demande auparavant inaccessible en raison des coûts élevés.
Cependant, ce contre-argument dépend de la capacité du marché à s’adapter et à s’étendre. Pendant la période où TurboQuant passe de l’article à l’outil de production puis au standard industriel, la demande hardware peut-elle croître assez vite pour combler le « vide » créé par l’efficacité accrue ?
Personne ne connaît la réponse. Le marché intègre cette incertitude dans ses prix.
Plus important que la volatilité des actions de stockage, c’est la tendance profonde révélée par TurboQuant.
Le principal champ de bataille de la course à l’IA passe du « scaling compute » à la « maximisation de l’efficacité ».
Si TurboQuant fait ses preuves sur des modèles à grande échelle, il pourrait provoquer un changement fondamental : l’inférence à long contexte passerait du statut de luxe réservé aux grands laboratoires à celui de standard industriel.
C’est dans cette course à l’efficacité que Google excelle — en développant des algorithmes de compression mathématiquement quasi-optimaux, repoussant les limites de la théorie de l’information de Shannon, et non par simple ingénierie brute. Le taux de distorsion théorique de TurboQuant n’est qu’environ 2,7 fois le minimum imposé par la théorie de l’information.
Cela suggère que d’autres avancées similaires devraient suivre. Cela marque la maturité d’une direction de recherche entière.
Pour l’industrie du stockage, la question la plus préoccupante n’est pas « Cela affectera-t-il la demande cette fois-ci ? », mais : Alors que les coûts d’inférence IA continuent de baisser grâce au logiciel, jusqu’où le fossé hardware peut-il rester large ?
La réponse pour l’instant : Il reste large, mais pas assez pour ignorer ces signaux.
Cet article est repris de [TechFlow], avec droits d’auteur appartenant à l’auteur original [TechFlow]. Pour toute question concernant cette republication, veuillez contacter l’équipe Gate Learn, qui traitera votre demande conformément aux procédures en vigueur.
Avertissement : Les opinions et points de vue exprimés dans cet article sont ceux de l’auteur uniquement et ne constituent pas un conseil en investissement.
Les autres versions linguistiques de cet article sont traduites par l’équipe Gate Learn. Sauf mention spécifique de Gate, les articles traduits ne peuvent être copiés, distribués ou plagiés.





