[论文解读] Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing
Focus-dLLM 是一个训练无关框架,通过从过去的置信度预测未遮罩的标记位置并应用带有跨层接收点复用的 sink 感知稀疏注意力,以加速长上下文扩散 LLM 推理。
Diffusion Large Language Models (dLLMs) deliver strong long-context processing capability in a non-autoregressive decoding paradigm. However, the considerable computational cost of bidirectional full attention limits the inference efficiency. Although sparse attention is promising, existing methods remain ineffective. This stems from the need to estimate attention importance for tokens yet to be decoded, while the unmasked token positions are unknown during diffusion. In this paper, we present Focus-dLLM, a novel training-free attention sparsification framework tailored for accurate and efficient long-context dLLM inference. Based on the finding that token confidence strongly correlates across adjacent steps, we first design a past confidence-guided indicator to predict unmasked regions. Built upon this, we propose a sink-aware pruning strategy to accurately estimate and remove redundant attention computation, while preserving highly influential attention sinks. To further reduce overhead, this strategy reuses identified sink locations across layers, leveraging the observed cross-layer consistency. Experimental results show that our method offers more than $29 imes$ lossless speedup under $32K$ context length. The code is publicly available at: https://github.com/Longxmas/Focus-dLLM
研究动机与目标
- 在给定双向全注意力和未知的未遮罩位置的前提下,推动扩散式 LLM(dLLMs)对长上下文的高效推理。
- 研究标记置信一致性和注意力接收点行为,以指导稀疏化。
- 开发一个训练无关的框架,通过预测未遮罩位置并剪裁注意力来减少计算。
- 保留关键的注意力接收点并在各层之间复用接收点位置以节省开销。
- 在长上下文基准测试上展示在最小准确率损失下的显著加速。
提出的方法
- 提出一个基于过去置信度的指示器,利用 step t-1 的置信度预测下一个未遮罩位置并扩展为活动区域。
- 开发一个窗口扩展的活动查询集,以利用注意力中的局部性并裁剪远距离标记。
- 提出一个 sink 感知的稀疏注意力机制,在各层保留注意力接收点并在中间密集层识别它们。
- 在各层之间复用已识别的接收点,避免重复识别接收点并减少开销。
- 实现对 Key/Value 历史的动态分块裁剪,选择相关的提示块并保留接收点和响应标记。
- 将以上组件结合,对预测未遮罩查询和选择的 Key/Value 对执行稀疏注意力,在不牺牲解码质量的前提下实现加速。

实验结果
研究问题
- RQ1在 dLLMs 中,当前扩散步的未遮罩位置是否可以从前一步的标记置信度中可靠推断?
- RQ2注意力接收点在 dLLMs 中是否表现出跨层的一致性,从而实现复用以在不损害准确性的前提下减少计算?
- RQ3如何利用过去的置信信号和局部注意力模式来设计适用于长上下文扩散解码的有效稀疏注意力?
- RQ4在非常长的上下文长度下,sink 感知的稀疏注意力和分块 KV 剪裁对准确性和吞吐量的影响是什么?
主要发现
- 研究发现相邻扩散步之间标记置信度存在强烈正相关。
- 以往未知的未遮罩位置在很大程度上与前一步的高置信标记重叠,从而能够准确预测下一步应何处未遮罩。
- dLLMs 的注意力表现出局部性和可预测的接收点,且存在跨层的一致性,使得接收点可以在各层之间复用。
- Focus-dLLM 在很多模型上实现了显著加速(在 32K 上对 Vanilla 的加速高达 29.6x 的报道),且相对于基线在评估模型中保持甚至提升了准确性。
- 将过去置信引导与 sink 感知的稀疏注意力以及跨层接收点复用结合,得到比基线更好的性能和显著的吞吐量提升。
- 消融研究表明,PCGI 查询选择和 SA Sparse Attn 两个组件都对准确性和速度有贡献,接收点的使用始终提升性能。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。