关于albert的一篇文章之中提到了n-gram mask时给了一个求概率的公式这个公式怎么理解?
2023-12-07 阅读 25
可以把公式按“先选长度,再选起点”的概率分解来理解。设序列长度为 N,n-gram 长度随机取值的分布为 p_n(n=1..K),若长度为 n 时起点在所有合法起点上均匀选择(共有 N−n+1 个起点),那么任一位置 t 被 mask 的概率可写成
P(t 被 mask) = sum_{n=1}^K p_n * (覆盖位置 t 的起点数) / (N−n+1).
这里“覆盖位置 t 的起点数”是满足 s ≤ t ≤ s+n−1 的起点 s 的个数(序列中间位置通常为 n,靠边会少)。而某个具体的 n-gram(起点 s、长度 n)被选中的概率就是 p_n * 1/(N−n+1)。如果采样策略包含多次抽取、去重或禁止重叠,上式需要相应调整以考虑依赖和归一化因子。
更新于 2026年01月01日