QUICK REVIEW

[论文解读] Differential Transformer

Tianzhu Ye, Li Dong|arXiv (Cornell University)|Oct 7, 2024

Physics and Engineering Research Articles被引用 10

一句话总结

Differential Transformer 引入一种微分注意力机制，通过减去两个 softmax 注意力图来抵消噪声，从而获得更稀疏、与目标更相关的注意力，在扩展、长上下文、检索和上下文学习任务上实现更好的性能。

ABSTRACT

Transformer tends to overallocate attention to irrelevant context. In this work, we introduce Diff Transformer, which amplifies attention to the relevant context while canceling noise. Specifically, the differential attention mechanism calculates attention scores as the difference between two separate softmax attention maps. The subtraction cancels noise, promoting the emergence of sparse attention patterns. Experimental results on language modeling show that Diff Transformer outperforms Transformer in various settings of scaling up model size and training tokens. More intriguingly, it offers notable advantages in practical applications, such as long-context modeling, key information retrieval, hallucination mitigation, in-context learning, and reduction of activation outliers. By being less distracted by irrelevant context, Diff Transformer can mitigate hallucination in question answering and text summarization. For in-context learning, Diff Transformer not only enhances accuracy but is also more robust to order permutation, which was considered as a chronic robustness issue. The results position Diff Transformer as a highly effective and promising architecture to advance large language models.

研究动机与目标

推动在 Transformer 中减少注意力噪声，以改善关键信息检索和上下文理解。
提出一种微分注意力机制，使模型聚焦于相关上下文，同时抑制噪声。
展示可扩展性、长上下文能力，以及在下游任务和上下文学习场景中的鲁棒性。
探索实际好处，如减少幻觉、降低激活异常值。

提出的方法

将输入投影分成两组，以计算两个独立的查询(Query)和键(Key)。
计算两个 softmax 注意力图并取其差值，以形成微分注意力。
引入一个可学习的标量 lambda，用以平衡这两个注意力图，并对 lambda 进行再参数化以实现稳定训练。
应用带有逐头归一化和固定梯度对齐缩放的多头微分注意力，随后是 SwiGLU 前馈块。
使用 RMSNorm 和 GroupNorm 在不同头和层之间稳定训练。
保持解码器风格的架构，具备残差连接和类似 LayerNorm 的归一化，兼容标准 LLM 超参数。

实验结果

研究问题

RQ1相较于标准注意力，微分注意力是否提升了模型从长上下文中检索关键信息的能力？
RQ2Diff Transformer 是否在参数或令牌更少的情况下实现相当或更好的语言建模性能？
RQ3该方法是否减少注意力噪声和激活异常值，从而实现更好的量化和长上下文处理？
RQ4在差分注意力下，In-context learning 对提示顺序置换是否更鲁棒？
RQ5这些好处是否扩展到对摘要和问答中的幻觉减缓？

主要发现

模型	ARC-C	ARC-E	BoolQ	HellaSwag	OBQA	PIQA	WinoGrande	平均
Diff -3B	37.8	72.9	69.0	71.4	29.0	76.8	67.1	60.6
OpenLLaMA-3B-v2	33.9	67.6	65.7	70.0	26.0	76.7	62.9	57.5
StableLM-base-alpha-3B-v2	32.4	67.3	64.6	68.6	26.4	76.0	62.1	56.8
StableLM-3B-4E1T	—	66.6	—	—	—	76.8	63.2	—

Diff Transformer 在语言建模方面在规模、令牌数量和上下文长度上超越 Transformer，在大约 65% 的参数或令牌下实现相近的性能。
在长上下文和针孔式检索任务中，Diff Transformer 展示了更高的准确性和显著更少的注意力噪声。
与 Transformer 相比，Diff Transformer 在摘要与问答数据集上减少了情境性幻觉。
在多个数据集上，Diff Transformer 的多示例上下文学习更准确，对演示顺序比 Transformer 更鲁棒。
Diff Transformer 表现出更少的激活异常值，并在低比特量化下保持性能，从而实现更高效的硬件实现。
Diff Transformer 在 64K 上下文中维持对关键信息的稳定检索，且当目标信息在序列前段时有显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。