为什么Karpathy说RLHF不是真的RL(强化学习)?
2024-11-30 阅读 16
Andrej Karpathy在他的博客文章中提到RLHF(Reinforcement Learning from Human Feedback)并不是传统意义上的强化学习。他指出,RLHF是一种基于人类反馈的学习方法,它依赖于人类提供的指导,而不是通过奖励信号来进行学习。相比之下,传统的强化学习是基于环境给予的奖励信号来进行学习的。
因此,Karpathy认为RLHF和传统的强化学习在学习方式和依赖的信号上有所不同,因此不能简单地将RLHF视为传统强化学习的一个变体。他强调了RLHF的独特性,认为它是一种有趣的学习方法,但并不是传统强化学习的替代品。
更新于 2024年12月02日