PPO训练的reward的变化曲线如下,是模式崩溃了吗?
2024-11-26 阅读 9
从这个reward变化曲线来看,如果reward突然下降到很低的水平,并且保持在这个水平,那可能是模型崩溃了。但如果reward有周期性的波动或者有一定的趋势变化,可能只是模型在学习过程中的正常表现。要确定是否模型崩溃,可以进一步观察其他指标,比如policy的更新情况、value function的变化等。如果有其他指标也显示异常,那可能是模型出现了问题。建议结合多个指标来综合判断模型的训练情况。
更新于 2024年11月27日