首页
我们能不能调教gpt,让其符合我们的核心价值观为我们所用?
2023-11-20 阅读 11
可以。技术层面可以通过微调、系统提示/指令工程、基于人类反馈的强化学习、规则过滤和审查等手段,让模型行为更贴合某套核心价值观。关键是先把价值观具体化并形成可操作的准则,组织多元化的标注与审核流程,防止过拟合或被对抗性输入绕过,并在部署后做持续监控、红队测试和合规审计,以在符合价值观、保持泛化能力与避免不当限制之间取得平衡。
更新于 2025年12月30日