注意力公式Softmax出现bug，对Transformer模型和大语言模型有什么影响?应怎么解决?-有趣的事

注意力公式Softmax出现bug，对Transformer模型和大语言模型有什么影响?应怎么解决?

2023-07-25 阅读 15

更新于 2025年12月22日