Transformer模型是如何应用到ChatGPT中的?
2023-05-28 阅读 5
ChatGPT 基于 GPT 系列的 Transformer 架构,采用解码器(decoder-only)形式的多层自注意力网络:输入先被分成子词 token 并加入位置编码,经过多层自注意力、前馈网络、残差连接和层归一化,用因果掩码实现逐步的下一个词预测。训练先用大规模语料做无监督预训练(next-token prediction),再通过有监督微调和人类反馈的强化学习(RLHF)优化对话质量与安全性。生成时根据上下文窗口进行自回归解码,常用温度、top-k/top-p 等采样策略控制输出多样性和稳定性。
更新于 2025年12月11日