如何吸收chatgpt的优点构建自己的语言模型?
2023-07-23 阅读 7
要吸收 ChatGPT 的优点,先把它的关键要素拆开:大规模 Transformer 预训练、以指令为主的监督微调、用人类反馈训练奖励模型并做 RLHF 对齐、检索增强以提高事实性、以及工程化的安全与拒答策略。实践路径是先选开源基础模型做预训练或接续训练,用多样且高质量的对话/指令数据做监督微调,再训练奖励模型并用 PPO 等方法做 RLHF,结合检索/知识库提高准确性,构建过滤与拒绝机制保证安全,最后通过蒸馏、LoRA、量化等技术降低推理成本,并以持续的人类反馈和自动评测循环迭代改进。
更新于 2025年12月22日