Ramp Labs пропонує нове рішення для спільного використання пам’яті між багатьма агентами, витрати токенів знижуються максимум на 65%
Дослідницький доробок «Latent Briefing», опублікований Ramp Labs, дозволяє стискати кеш KV великих мовних моделей, забезпечуючи ефективний обмін спогадами в багатoагентних системах, знижуючи витрати на токени та підвищуючи точність. У тестах LongBench v2 цей метод успішно зменшив витрати токенів робочої моделі Worker на 65% і підвищив загальну точність приблизно на 3 процентні пункти; час стискання становив лише 1.7 секунди. Ця технологія демонструє видатні результати в різних сценаріях роботи з документами.
GateNews·4год тому

