transformer架构的核心公式其实类似于数学期望,理解起来也不复杂,但为什么这个模型这么强呢?
2023-04-21 阅读 5
把注意力看作带权和的期望是个好直观比喻,但transformer真正强在几个协同因素:自注意力能动态建模任意位置间的相互作用,天然捕捉长程依赖且易并行,加速训练;多头注意力在不同子空间并行抽取多种关系;残差连接和层归一化让很深的网络可训练;可扩展到大量参数并借助海量预训练数据学到通用表征,配合位置编码和微调策略,整体表达能力和样本利用率都很高。
更新于 2025年12月02日