现在训练或微调大型语言模型(Large Language Models)的主流损失函数是什么呢?
2023-12-27 阅读 29
主流损失主要有几类:令牌级交叉熵(MLE/causal LM)用于自回归预训练和微调;掩码语言建模的交叉熵用于编码器式模型;蒸馏或对齐常用KL散度;RLHF里奖励模型用二分类或成对比较(pairwise logistic/hinge)损失,策略优化常用PPO的策略梯度目标(含surrogate loss、KL惩罚、value和熵项);还有序列级的最小风险/REINFORCE类损失。
更新于 2026年01月02日