Rotary Position Embedding (RoPE) 是一种新颖的方法,用于将位置信息有效整合到 Transformer 架构的语言模型学习过程中。它的核心思想是通过旋转矩阵编码绝对位置,同时在自注意力机制中融入显式的相对位置依赖

核心思想

  • Transformer 模型中的自注意力机制通常通过 的内积 来传递不同位置 token 之间的知识
  • RoPE 的目标是使这个内积 q⊺ mkn 能够仅由词嵌入 xmxn 和它们的相对位置 m-n 来表达,即 ⟨fq(xm,m), fk(xn, n)⟩ = g(xm,xn,m-n)
  • RoPE 的方法是乘法性质的。它通过旋转矩阵的乘积自然地引入相对位置信息,而不是改变加性位置编码的扩展公式。