Transformer中的Wo,Wv矩阵可以合并吗?
2023-05-21 阅读 130
在Transformer中,Wo和Wv矩阵不能直接合并,因为它们的作用不同。
Wo矩阵是用来将Encoder的输出向量映射到Decoder的输入向量空间中,它的维度是[hidden_size, hidden_size]。
Wv矩阵是用来将Encoder的输入向量映射到Query、Key、Value空间中,它的维度是[hidden_size, num_heads * head_size]。
因此,这两个矩阵的维度不同,不能直接合并。
更新于 2023年05月25日