أخبار Gate، في 25 مارس، أصدرت معهد أبحاث جوجل خوارزمية الضغط الكمي TurboQuant، التي يمكنها ضغط ذاكرة التخزين المؤقت لـKV للنماذج اللغوية الكبيرة إلى 3 بت، مما يقلل استهلاك الذاكرة بما لا يقل عن 6 مرات، دون الحاجة إلى تدريب أو تعديل دقيق، ودون فقدان دقة النموذج. في وضع 4 بت، على بطاقة GPU من نوع NVIDIA H100، تتفوق سرعة حساب الانتباه على الخط الأساسي غير المضغوط بـ32 بت بأقصى 8 مرات. قام فريق البحث بالتحقق باستخدام نماذج Gemma وMistral على معايير سياق طويلة مثل LongBench وNeedle In A Haystack وZeroSCROLLS، وحقق TurboQuant أداءً ممتازًا في جميع الاختبارات. تتكون الخوارزمية من خوارزمين فرعيين: PolarQuant الذي يلغي استهلاك الذاكرة الناتج عن الطرق التقليدية للكمية عبر تحويل الإحداثيات القطبية، وQJL الذي يصحح الأخطاء المتبقية باستخدام بت واحد فقط. يقود البحث كل من أمير زاندية من معهد أبحاث جوجل ونائب الرئيس وزميل جوجل فهاب ميرروكني، بالتعاون مع معهد كاوست في كوريا والجامعة نيويورك، وسيتم نشره في مؤتمر ICLR 2026. وأكدت جوجل أن أحد الاستخدامات الرئيسية لهذه التقنية هو حل عنق الزجاجة في ذاكرة KV لنماذج مثل Gemini.