语料库是有限的,是否意味着chatgpt代表的大语言模型会进入瓶颈,很难再突破或已经进入瓶颈?
2023-06-15 阅读 2
语料有限不会自动等同于“不可突破的瓶颈”,但会改变进步的路径。单靠不断堆更多通用文字会遇到边际收益递减、噪声和版权/隐私等限制,所以纯粹靠扩大语料的效率会下降。可行的突破方向是换思路:改进模型架构和训练目标、用检索增强(把外部知识实时接入)、结合结构化知识库或知识图谱、用合成数据和有针对性的标注微调、做多模态/长期记忆与在线学习、以及更好的评估与人类反馈机制。总的来说,不是没有可提升空间,而是要从“更多语料”转向“更有效的方法和更可靠的知识整合”。
更新于 2025年12月13日