市面上有没有能源类的LLM数据集?如何自己构建一个能源类的LLM数据集?
2023-12-24 阅读 13
市面上有一些与能源相关的公开数据集和语料可用,常见来源包括学术论文(arXiv、期刊)、开源平台(Kaggle、Hugging Face)以及行业能耗时序数据集(如Pecan Street、UCI的能耗数据)和专利、技术白皮书等。要自己构建能源类LLM数据集,先明确目标任务(问答、摘要、指令跟进或纯语言建模),然后收集多种源文本(论文、报告、手册、传感器时序、故障日志、客户文本等),做OCR/清洗、去重与格式化,去敏感信息并做匿名化,按任务转换成训练样式(原文、问答对、指令—响应对、摘要对等),进行质量抽检与标注校验,最后按训练/验证/测试分割并保留元数据和许可信息,注意数据版权与隐私合规。
更新于 2026年01月02日