Quote

  • MHA
    • 独立的“注意力头”并行处理信息,独立的 Q、K、V
    • 能够从输入序列中捕获多种不同类型的关系和语义信息
    • 每个注意力头可以专注于输入序列的不同部分或不同维度的特征
    • 计算成本高、内存消耗大、推理速度慢
  • GQA
    • 在保持接近 MHA 的模型质量的同时,实现了接近 MQA 的推理速度
    • 降低了 KV 缓存,减少内存占用
    • 更快的推理时间,多 GPU 并行性,易于从 MHA 转换
      • Uptraining / Continued Pre-training
  • MQA
    • 所有注意力头共享同一组 Key 和 Value 投影矩阵,显著提高推理速度,内存效率高
    • 可能导致模型质量下降,可能牺牲部分准确性,训练稳定性问题