首页
为什么有了 llm as judge还需要单独训reward model?
2024-12-25 阅读 9
LLM作为法官可以用来评估不同的案例和法律论点,但它并不直接关注案件的结果或后果。为了训练一个完整的法官系统,我们需要一个单独的奖励模型来指导LLM的学习,以便它可以更好地理解案件的结果对于社会福祉的影响。奖励模型可以根据案件的结果给出奖励信号,帮助LLM学习如何做出更符合社会利益的裁决。因此,单独训练奖励模型可以提高LLM作为法官的表现和决策质量。
更新于 2024年12月25日