DeepSeek研究员开源AutoResearch：AI智能体首次自主完成285B模型RL研究闭环

2026/06/19 04:32

OmniTools 6月19日消息，DeepSeek研究员Deli Chen正式开源AutoResearch协议，并同步发布Self-play综述论文。该AI智能体首次在DeepSeek 285B模型上完全自主完成强化学习（RL）研究闭环，涵盖实验设计、代码编写、GPU任务提交、调试及结论总结，全程零人工干预。系统集成GRPO工具，实现端到端自动化研究流程，被视为迈向AI驱动持续学习研究的重要实践。