研究人员发现在使用 AIGC 内容训练模型时,会造成模型出现不可逆的缺陷,你对此有何看法?
2023-06-20 阅读 9
值得重视但不必过度绝对化。所谓“不可逆的缺陷”通常指当训练数据大量被机器生成内容(AIGC)占据后,模型可能逐步丧失多样性、强化特有的合成痕迹与偏差、产生自我强化的幻觉模式,甚至出现风格单一化或对真实分布的偏移。这些问题的成因包括数据污染(模型学到合成物的系统性错误)、自训练/闭环放大、以及训练目标与评估指标不匹配。现有研究给出了一些实验证据,但结论依赖于合成内容的质量、占比、以及训练与评估的具体设置;并非所有情况都会“不可逆”,但修复成本可能很高。应对上,核心是加强数据可追溯与筛选、对合成数据做标注与限比混合、保留高质量人类标注语料、在训练中加入正则化与对抗性验证,以及持续用真实世界的验证集监测退化。长期看,建立合成内容治理和数据溯源机制比简单扩大训练规模更重要,能有效降低这类风险。
更新于 2025年12月15日