注意力公式Softmax出现bug,对Transformer模型和大语言模型有什么影响?应怎么解决?

2023-07-25 阅读 0
更新于 2025年12月22日