可用于大语言模型训练的数据集哪里能够获取?
2024-04-11 阅读 7
可以从公开抓取和开源汇总平台获取常用语料:比如公共网页抓取的 Common Crawl(及其衍生集合 CCNet、CC-100、OSCAR)、开源整合语料如 The Pile、OpenWebText、C4;百科和书籍语料有 Wikipedia dumps、Project Gutenberg、BooksCorpus;学术与专业文本有 arXiv、PubMed;多语种与平行语料可看 OPUS、ParaCrawl、Tatoeba;社交/论坛数据可通过 Pushshift(Reddit)获取;多模态则有 LAION、WIT 等。常用的集中下载与管理平台包括 Hugging Face Datasets、Kaggle、AWS/Open Data、Internet Archive、Papers with Code。下载前务必核查许可和版权,并做好清洗、去重与隐私合规处理。
更新于 2026年01月03日