transformer架构的核心公式其实类似于数学期望，理解起来也不复杂，但为什么这个模型这么强呢？-有趣的事

transformer架构的核心公式其实类似于数学期望，理解起来也不复杂，但为什么这个模型这么强呢？

2023-04-21 阅读 20

更新于 2025年12月02日