对齐之道:从RLHF到RLAIF,如何更好的挖掘预训练模型的潜力?更好的对齐人类偏好?

2024-04-10 阅读 12
更新于 2024年11月21日