首页
既然ChatGPT就是猜下一个字的概率,为什么传统的统计模型却做不好?
2023-07-25 阅读 112
可以把差别归结为容量、表示和训练方式三个方面。传统统计模型(如n‑gram、HMM)靠计数和手工平滑,遇到稀疏数据、上下文截断和特征有限就崩。现代大模型用神经网络学到连续的子词嵌入、用自注意力捕捉长程依赖,参数量和训练数据远超传统方法,配合高效优化和大规模预训练,因而在泛化、语义理解和生成上远胜于简单的概率计数。
更新于 2025年12月22日