Quote

- MHA
- 独立的“注意力头”并行处理信息,独立的 Q、K、V
- 能够从输入序列中捕获多种不同类型的关系和语义信息
- 每个注意力头可以专注于输入序列的不同部分或不同维度的特征
- 计算成本高、内存消耗大、推理速度慢
- GQA
- 在保持接近 MHA 的模型质量的同时,实现了接近 MQA 的推理速度
- 降低了 KV 缓存,减少内存占用
- 更快的推理时间,多 GPU 并行性,易于从 MHA 转换
- Uptraining / Continued Pre-training
- MQA
- 所有注意力头共享同一组 Key 和 Value 投影矩阵,显著提高推理速度,内存效率高
- 可能导致模型质量下降,可能牺牲部分准确性,训练稳定性问题