返回行业动态

Hugging Face 发布开源 AI 智能体 ml-intern,自动化 LLM 后训练流程

2026/04/22 00:46
查看原文

Hugging Face 发布了开源 AI 智能体 ml-intern,旨在自动化大语言模型(LLM)的端到端后训练工作流。该工具基于 smolagents 框架构建,能够自主完成文献综述、数据集发现、训练脚本执行和迭代评估等通常需要研究人员大量手动操作的任务。

ml-intern 的工作流程模拟了 ML 研究员的操作循环,包括浏览 arXiv 和 Hugging Face Papers、检查数据集质量、格式化数据,以及在本地算力不足时通过 Hugging Face Jobs 启动任务。此外,它还能诊断 RLHF 中的奖励崩溃等故障并重新训练,整个监控栈依赖于开源实验跟踪器 Trackio。

在 PostTrainBench 基准测试中,ml-intern 在单张 H100 GPU 和 10 小时的限制下,将 Qwen3-1.7B 模型在 GPQA 上的得分从 8.5% 提升至 32%,超越了 Claude Code 的 22.99%。该智能体还展示了高级训练策略,如在医疗领域生成合成数据,以及在数学领域自主实现 GRPO(Group Relative Policy Optimization)训练脚本以优化性能。