self attention中的Q,K,V,这三个矩阵如何进行梯度学习,进行注意力计算的?

2024-11-21 阅读 13
更新于 2024年11月24日