GPTs、智能体都有联网、知识库功能。对知识库的理解是怎么样的,知识库里内容来源是什么?

2024-11-19 阅读 11
更新于 2024年11月21日
简单回答一下楼主的三个问题
哪些需要添加知识库?答:涉及到专有知识的就一定需要添加knowledge base,应用场景如企业内部智库。你可以把LLM当作刚毕业进入贵司的大学生,他们已经完成了预训练(pre-training),为了适应你们公司特有的下游任务(downstream task),可以使用微调(fine-tune)提升他的适应性,也可以使用添加知识库(knowledge base)扩展他的能力范围。
企业内部的规章、历史、文化、系统等等都不是常识性知识,再牛的学霸也无法从大学里学到,所以必须进入公司后再学。另外由于大模型微调需要专业的技术,资源开销通常也比较大,不适合C端用户,所以添加知识库并使用检索增加生成(RAG)技术作为大脑外挂,是比较合适的解决方案。
知识库的类型是什么?答:最好是.txt。尽管现在有一些多模态(Multimodal)RAG的技术出现,但能应用于生产的主流RAG技术还是在text上不断微创新。纯粹的text知识库文件方便系统加工后进行分块(chunking)和索引(indexing)。另外,比如像GPTs的知识库文件限制是10个大小为10MB的文件,如果只用.txt,那这个智能体外挂大脑里的干货就比你用.pdf,.doc这些要多很多。
有知识库的智能体是不是更加专业?答:和第一问类似,智能体有了知识库是否更加专业得看你给它的知识库里包含了什么内容,以及你要拿它来解决什么问题。
包含LLM预训练知识(pre-trainded knowledge)以外知识的知识库才会有补充作用,你给一个参加中考的学生开卷一份九九乘法表并不能让他变强;
知识库和智能体要解决的问题相关才能锦上添花,你给一个参加中考的学生开卷一本微积分同样无法让他变强。
在GPT和智能体领域,"知识库"是一种为模型提供信息的外部数据库或文档集,通常包含特定领域的资料。知识库的内容在一定程度上可以理解为一个参考或查询资源,可以帮助模型获得实时的、准确的专业知识,或者提供超出模型训练知识范围的详细内容。它的来源和类型会根据应用需求有所不同,以下是几种典型的知识库内容来源:
1. 文档和文件库:包括PDF、文本文件、Word文件等,用于企业或机构内部知识库,方便模型从文档内容中提取信息。这种方法在公司内部使用较多,支持查找相关文件内容并提供答案。
2. 数据库:例如SQL数据库、NoSQL数据库、知识图谱等结构化数据源,提供高效的数据查询方式。数据库可以为模型提供实时数据查询能力,比如库存、产品信息等,这在电商、客服等领域很常见。