为什么有了 llm as judge还需要单独训reward model?

2024-12-25 阅读 9
更新于 2024年12月25日