GPT-6B以上的大模型相比BERT-110M,在微调数据充足的情况下,对NLG任务有无较大提升?
2023-06-25 阅读 6
有较大提升。BERT-110M 是编码器、用掩码语言建模,天生不适合直接生成文本;而 GPT 类的自回归大模型(6B 级别及以上)在预训练目标、上下文建模能力和参数容量上都更利于生成任务。给出充足微调数据,GPT-6B+ 在流畅性、连贯性、长段落保持、样式控制和多样性上通常比小型 BERT 大幅领先。但要注意成本和延迟更高,且如果对比的是同样规模的编码器-解码器生成模型(如 BART/T5),差距会小很多,超大模型也存在边际收益递减。
更新于 2025年12月17日