self attention中的Q,K,V，这三个矩阵如何进行梯度学习，进行注意力计算的？-有趣的事

self attention中的Q,K,V，这三个矩阵如何进行梯度学习，进行注意力计算的？

2024-11-21 阅读 20

更新于 2024年11月24日