ChatGPT 为什么不用 Reward-Model 的数据直接 fine-tune,而用 RL?

2023-05-12 阅读 65
更新于 2023年05月16日