位置信息代表了词语的先后顺序 位置的应用 RNN 通过递归计算隐藏状态,天然考虑顺序 CNN 常被认为位置无关,但 padding 操作可能隐式学习位置 (P)LM 基于Transformer,但自注意力机制是位置无关的,常需要位置信息嵌入