Hugging Face 发布开源 AI 智能体 ml-intern，自动化 LLM 后训练流程

Hugging Face 发布了开源 AI 智能体 ml-intern，旨在自动化大语言模型（LLM）的端到端后训练工作流。该工具基于 smolagents 框架构建，能够自主完成文献综述、数据集发现、训练脚本执行和迭代评估等通常需要研究人员大量手动操作的任务。

ml-intern 的工作流程模拟了 ML 研究员的操作循环，包括浏览 arXiv 和 Hugging Face Papers、检查数据集质量、格式化数据，以及在本地算力不足时通过 Hugging Face Jobs 启动任务。此外，它还能诊断 RLHF 中的奖励崩溃等故障并重新训练，整个监控栈依赖于开源实验跟踪器 Trackio。

在 PostTrainBench 基准测试中，ml-intern 在单张 H100 GPU 和 10 小时的限制下，将 Qwen3-1.7B 模型在 GPQA 上的得分从 8.5% 提升至 32%，超越了 Claude Code 的 22.99%。该智能体还展示了高级训练策略，如在医疗领域生成合成数据，以及在数学领域自主实现 GRPO（Group Relative Policy Optimization）训练脚本以优化性能。