OmniTools 6月4日消息,英伟达与Hugging Face联合发布一项面向大语言模型预训练的合成数据生成新方法——基于任务种子的合成问答(Task-Seeded Synthetic Q&A)。该方法利用lm-eval-harness中约70个公开任务的训练集作为能力种子,生成结构化、带推理链和上下文的Q&A样本,用于Nemotron系列模型的后期训练。
在Nemotron-3 Nano模型的1000亿token续训实验中,该方法使MMLU-Pro提升1.8分、平均代码能力提升1.9分、常识理解提升1.6分、GPQA大幅提升11.1分,数学能力保持稳定。研究指出,加入任务相关知识与推理过程显著增强了训练信号,尤其在PIQA、GPQA-Diamond等需多步推理的评测中效果突出。
该流程包含种子收集、格式归一化、相似问题生成、答案与推理增强、过滤包装五个阶段,严格排除测试集数据,确保生成数据不泄露评估信息。目前该合成数据已应用于Nemotron Ultra及Super等更大规模训练工作流。