大语言模型数据哪里购买?
2024-04-11 阅读 21
可以从几类渠道获取:一是开源/公共语料(Common Crawl、C4、The Pile、Hugging Face Datasets、Kaggle 等,很多免费可直接下载);二是付费/受许可的语料库(LDC、ELRA、LexisNexis、ProQuest、Reuters、Bloomberg 等);三是数据市场和经纪商(AWS Data Exchange、Snowflake Marketplace、Datarade、阿里云/腾讯云数据市场等),以及提供爬取、清洗和标注服务的公司。购买时注意确认许可、版权和隐私合规。
更新于 2026年01月03日