OmniTools 6月18日消息,GitHub 近日推出一个采用 CC0 1.0 许可证的开源多语言仓库级数据集。该数据集全面覆盖 GitHub 仓库中的 README 文件、Issue 讨论与 Pull Request 内容。 该数据集旨在支持研究人员与开发者深入探索跨语言的开发者协作文本,从而提升多语言 AI 模型的训练与评估能力。GitHub 表示,此举将有效加速多语言场景下代码理解、生成与交互类 AI 工具的研发进程。