为什么Karpathy说RLHF不是真的RL(强化学习)？-有趣的事

首页

为什么Karpathy说RLHF不是真的RL(强化学习)？

2024-11-30 阅读 150

Andrej Karpathy在他的博客文章中提到RLHF（Reinforcement Learning from Human Feedback）并不是传统意义上的强化学习。他指出，RLHF是一种基于人类反馈的学习方法，它依赖于人类提供的指导，而不是通过奖励信号来进行学习。相比之下，传统的强化学习是基于环境给予的奖励信号来进行学习的。因此，Karpathy认为RLHF和传统的强化学习在学习方式和依赖的信号上有所不同，因此不能简单地将RLHF视为传统强化学习的一个变体。他强调了RLHF的独特性，认为它是一种有趣的学习方法，但并不是传统强化学习的替代品。

更新于 2024年12月02日

陕ICP备13008705号-1 Chat Gpt Api