[论文解读] TransMLA: Multi-Head Latent Attention Is All You Need
论文证明在相同 KV 缓存下 MLA 相较于 GQA 具有更强的表达能力,并引入 TransMLA,一种后训练方法将基于 GQA 的预训练模型转换为基于 MLA 的模型,随后进行微调以在不增加 KV 缓存大小的情况下提升下游性能。
In this paper, we present TransMLA, a framework that seamlessly converts any GQA-based pre-trained model into an MLA-based model. Our approach enables direct compatibility with DeepSeek's codebase, allowing these models to fully leverage DeepSeek-specific optimizations such as vLLM and SGlang. By compressing 93% of the KV cache in LLaMA-2-7B, TransMLA achieves a 10.6x inference speedup at an 8K context length while preserving meaningful output quality. Additionally, the model requires only 6 billion tokens for fine-tuning to regain performance on par with the original across multiple benchmarks. TransMLA offers a practical solution for migrating GQA-based models to the MLA structure. When combined with DeepSeek's advanced features, such as FP8 quantization and Multi-Token Prediction, even greater inference acceleration can be realized.
研究动机与目标
- 动机:降低大语言模型自注意力中的 KV 缓存瓶颈。
- 在相同 KV 缓存成本下,确立 MLA 相较于 GQA 的理论表达能力优势。
- 提供一个实用的转换工作流(TransMLA),将流行的基于 GQA 的模型转换为基于 MLA 的模型。
- 证明微调后的 TransMLA 模型在下游任务上优于其 GQA 对应模型,且 KV 缓存开销最小。
提出的方法
- 定义并在 KV 缓存与表示方面比较 MHA、GQA、MQA 和 MLA。
- 证明通过复制与低秩分解等论证,GQA 可以在相同 KV 缓存下转换为 MLA。
- 揭示基于 SVD 的低秩分解,将 GQA 表示为具有潜在 KV 表示的 MLA。
- 引入 TransMLA 作为一种后训练转换,在扩展表达能力的同时通过 W_K^a、W_K^b、W_V^a、W_V^b 参数化保持 KV 缓存固定。
- 描述一种吸收(absorb)操作,将某些矩阵合并以在推理时维持固定的潜在 KV 维度。
- 给出将 Qwen2.5 及类似模型从 GQA 转换到 MLA 并在 SmolTalk 上对数学/代码任务进行微调的实验设置。

实验结果
研究问题
- RQ1在相同 KV 缓存大小下,MLA 是否能够匹配或超越 GQA 的表现?
- RQ2是否有可能在不增加 KV 缓存开销的前提下,将基于 GQA 的预训练模型转换为基于 MLA 的模型?
- RQ3转换后的 TransMLA 进行微调,是否在数学与编码等下游任务上获得可测量的提升?
- RQ4正交分解在 TransMLA 的性能提升中起到的作用是什么?
主要发现
- 当 KV 缓存大小固定时,MLA 比 GQA 更具表达能力,且任意 GQA 配置都可以转换为 MLA 表示。
- 一种实用、低开销的转换(TransMLA)可以将流行的基于 GQA 的模型(如 LLaMA、Qwen、Mixtral)在不增加 KV 缓存大小的情况下转换为 MLA。
- 微调后的 TransMLA 模型在下游任务上相较于其 GQA 对应模型表现更佳,尤其在数学和编码任务中。
- 性能提升归因于潜在 KV 表示带来的表达能力扩展以及因子分解中的正交分解,而不仅仅是参数数量的增加。
- 在没有正交分解的同等扩展(类似恒等映射的维度扩展)的情况下,收益仅为边际,凸显潜在分解方法的重要性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。