OpenBMB联合清华NLP与Modelbest发布UltraData两大开源数据集

OmniTools 6月1日消息，OpenBMB联合清华大学自然语言处理实验室与Modelbest正式开源两个高质量数据集：Ultra-FineWeb-L3与UltraData-SFT-2605。

Ultra-FineWeb-L3为预训练合成数据集，总规模超6000亿tokens（含4000亿以上英文、2000亿以上中文），是目前最大开源中文预训练合成数据集；UltraData-SFT-2605为监督微调（SFT）数据集，含1500万以上样本，为中国首个开源且带“思考链”与“非思考链”双标注的大规模SFT数据集，覆盖数学、代码、知识问答与指令遵循等任务。

两个数据集均基于UltraData L0–L4框架构建，并已在MiniCPM5-1B模型上完成训练验证。全部数据已在HuggingFace平台免费开放。