transformer里PE为什么不采用concatenation的方式？-有趣的事

首页

transformer里PE为什么不采用concatenation的方式？

2024-11-21 阅读 14

在Transformer模型中，PE（Positional Encoding）是用来为输入的token序列增加位置信息的。PE的设计是为了让模型能够区分不同位置的token，从而更好地理解输入序列的顺序信息。PE采用的是加法（element-wise addition）而不是拼接（concatenation）的方式，主要是因为加法能够更好地保留原始的token表示，同时将位置信息与token的语义信息相结合，更容易让模型学习到位置信息的影响，而不会干扰原始的token表示。如果采用拼接的方式，可能会使得位置信息与token的语义信息混在一起，导致模型学习困难。因此，采用加法的方式能够更好地实现位置编码的效果。

更新于 2024年11月24日

陕ICP备13008705号-1 Chat Gpt Api