OmniTools 5月17日消息,伊利诺伊大学与清华大学等机构联合研究指出,当前LLM智能体采用的记忆重写机制——即通过大模型将原始交互经历压缩为书面教训——会显著损害记忆的可靠性。在网页购物、模拟环境及ARC风格谜题等多类任务中,反复重写导致错误分组、规则过度泛化或过拟合,进而引发细节遗忘或任务类型混淆。
实验显示,GPT-4在不启用记忆时对小型ARC-AGI问题集的解决率达100%,而引入流式记忆更新后性能下降至约54%。
研究建议,智能体记忆系统应将原始经历作为关键证据予以保留,仅对必要部分生成摘要,而非全自动重写全部经验。