OmniTools 6月19日消息,DeepSeek研究员Deli Chen正式开源AutoResearch协议,并同步发布Self play综述论文。该AI智能体首次在DeepSeek 285B模型上完全自主完成强化学习(RL)研究闭环,涵盖实验设计、代码编写、GPU任务提交、调试及结论总结,全程零人工干预。系统集成GRPO工具,实现端到端自动化研究流程,被视为迈向AI驱动持续学习研究的重要实践。