Ramp Labs mengajukan solusi baru untuk berbagi memori antar-multiagen, konsumsi Token tertinggi turun 65%
Hasil penelitian yang dipublikasikan oleh Ramp Labs, “Latent Briefing”, memungkinkan sistem multi-agent berbagi memori secara efisien dengan mengompresi cache KV model besar. Hal ini menurunkan konsumsi Token dan meningkatkan akurasi. Pada pengujian LongBench v2, metode ini berhasil mengurangi konsumsi Token model Worker sebesar 65%, serta meningkatkan akurasi keseluruhan sekitar 3 poin persentase; waktu kompresi hanya 1,7 detik. Teknologi ini menunjukkan performa yang sangat baik dalam berbagai skenario dokumen.
GateNews·4jam yang lalu

