高质量大语言模型数据集哪里获取呢？-有趣的事

首页

高质量大语言模型数据集哪里获取呢？

2024-11-22 阅读 254

想要高质量大模型训练数据，可以优先看 Hugging Face Datasets（开源数据汇总）、The Pile（精选混合文本）、Common Crawl / C4 / CCNet（大规模网页语料）、Wikipedia、BookCorpus、OpenWebText（仿 Reddit 网页语料）、OSCAR / CC-100（多语语料）、ParaCrawl / WMT（平行语料）、PubMed / arXiv（科研文本）、GitHub 公共仓库（代码类），也可以在 AWS Data Exchange、Kaggle 等市场或商业供应商处购买。无论来源都要注意版权合规，并做去重、清洗和质量评估。

更新于 2026年01月03日

陕ICP备13008705号-1 Chat Gpt Api