位置信息代表了词语的先后顺序

位置的应用

  • RNN 通过递归计算隐藏状态,天然考虑顺序
  • CNN 常被认为位置无关,但 padding 操作可能隐式学习位置
  • (P)LM 基于Transformer,但自注意力机制是位置无关的,常需要位置信息嵌入