可用于大语言模型训练的数据集哪里能够获取？-有趣的事

首页

可用于大语言模型训练的数据集哪里能够获取？

2024-04-11 阅读 69

可以从公开抓取和开源汇总平台获取常用语料：比如公共网页抓取的 Common Crawl（及其衍生集合 CCNet、CC-100、OSCAR）、开源整合语料如 The Pile、OpenWebText、C4；百科和书籍语料有 Wikipedia dumps、Project Gutenberg、BooksCorpus；学术与专业文本有 arXiv、PubMed；多语种与平行语料可看 OPUS、ParaCrawl、Tatoeba；社交/论坛数据可通过 Pushshift（Reddit）获取；多模态则有 LAION、WIT 等。常用的集中下载与管理平台包括 Hugging Face Datasets、Kaggle、AWS/Open Data、Internet Archive、Papers with Code。下载前务必核查许可和版权，并做好清洗、去重与隐私合规处理。

更新于 2026年01月03日

陕ICP备13008705号-1 Chat Gpt Api