高质量大语言模型数据集哪里获取呢?
2024-11-22 阅读 95
想要高质量大模型训练数据,可以优先看 Hugging Face Datasets(开源数据汇总)、The Pile(精选混合文本)、Common Crawl / C4 / CCNet(大规模网页语料)、Wikipedia、BookCorpus、OpenWebText(仿 Reddit 网页语料)、OSCAR / CC-100(多语语料)、ParaCrawl / WMT(平行语料)、PubMed / arXiv(科研文本)、GitHub 公共仓库(代码类),也可以在 AWS Data Exchange、Kaggle 等市场或商业供应商处购买。无论来源都要注意版权合规,并做去重、清洗和质量评估。
更新于 2026年01月03日