OmniTools 6月10日消息,百度百舸团队与复旦大学合作提出Long-horizon Utility KV(LU-KV)框架,将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。该框架通过离线画像估计注意力头边际贡献曲线,结合凸包松弛与基于边际效用的贪心求解器,在较低计算开销下实现接近最优的预算配置。
LU-KV可适配SnapKV、KeyDiff等多种KV压缩方法。在LongBench和RULER基准测试中,80%压缩比下模型性能损失较小,同时显著降低显存占用与推理延迟。
相关论文已被国际机器学习顶会ICML 2026正式录用。