Rotary Position Embedding (RoPE) 是一种新颖的方法,用于将位置信息有效整合到 Transformer 架构的语言模型学习过程中。它的核心思想是通过旋转矩阵编码绝对位置,同时在自注意力机制中融入显式的相对位置依赖。
核心思想
- Transformer 模型中的自注意力机制通常通过 和 的内积 来传递不同位置 token 之间的知识
- RoPE 的目标是使这个内积
q⊺ mkn能够仅由词嵌入xm、xn和它们的相对位置m-n来表达,即⟨fq(xm,m), fk(xn, n)⟩ = g(xm,xn,m-n) - RoPE 的方法是乘法性质的。它通过旋转矩阵的乘积自然地引入相对位置信息,而不是改变加性位置编码的扩展公式。