研究揭示LLM智能体记忆重写机制损害可靠性

OmniTools 5月17日消息，伊利诺伊大学与清华大学等机构联合研究指出，当前LLM智能体采用的记忆重写机制——即通过大模型将原始交互经历压缩为书面教训——会显著损害记忆的可靠性。在网页购物、模拟环境及ARC风格谜题等多类任务中，反复重写导致错误分组、规则过度泛化或过拟合，进而引发细节遗忘或任务类型混淆。

实验显示，GPT-4在不启用记忆时对小型ARC-AGI问题集的解决率达100%，而引入流式记忆更新后性能下降至约54%。

研究建议，智能体记忆系统应将原始经历作为关键证据予以保留，仅对必要部分生成摘要，而非全自动重写全部经验。