OmniTools 6月1日消息,OpenBMB联合清华大学自然语言处理实验室与Modelbest正式开源两个高质量数据集:Ultra-FineWeb-L3与UltraData-SFT-2605。
Ultra-FineWeb-L3为预训练合成数据集,总规模超6000亿tokens(含4000亿以上英文、2000亿以上中文),是目前最大开源中文预训练合成数据集;UltraData-SFT-2605为监督微调(SFT)数据集,含1500万以上样本,为中国首个开源且带“思考链”与“非思考链”双标注的大规模SFT数据集,覆盖数学、代码、知识问答与指令遵循等任务。
两个数据集均基于UltraData L0–L4框架构建,并已在MiniCPM5-1B模型上完成训练验证。全部数据已在HuggingFace平台免费开放。