Skip to main content
QUICK REVIEW

[论文解读] FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

Siyang He, Qiqi Wang|arXiv (Cornell University)|Jan 30, 2026
Topic Modeling被引用 0
一句话总结

FourierSampler 引入一种频域解码策略,对扩散型LLM进行引导,将结构先于细节的生成,通过聚焦低频到高频分量,在基线和自回归模型之上获得一致的提升。

ABSTRACT

Despite the non-autoregressive potential of diffusion language models (dLLMs), existing decoding strategies demonstrate positional bias, failing to fully unlock the potential of arbitrary generation. In this work, we delve into the inherent spectral characteristics of dLLMs and present the first frequency-domain analysis showing that low-frequency components in hidden states primarily encode global structural information and long-range dependencies, while high-frequency components are responsible for characterizing local details. Based on this observation, we propose FourierSampler, which leverages a frequency-domain sliding window mechanism to dynamically guide the model to achieve a "structure-to-detail" generation. FourierSampler outperforms other inference enhancement strategies on LLADA and SDAR, achieving relative improvements of 20.4% on LLaDA1.5-8B and 16.0% on LLaDA-8B-Instruct. It notably surpasses similarly sized autoregressive models like Llama3.1-8B-Instruct.

研究动机与目标

  • 研究扩散型LLM隐藏状态的光谱属性,了解频率分量与语言结构及细节之间的关系。
  • 开发一个频率驱动的解码方法(FourierSampler),在扩散型LLMs中利用低频结构与高频细节。
  • 证明频率引导的生成在不同的dLLM架构上对代码与数学基准的性能提升。
  • 展示FourierSampler在完整双向注意力和分块因果注意力模型中的鲁棒性。

提出的方法

  • 对dLLMs进行频域分析,显示低频成分编码全局结构,而高频成分编码局部细节。
  • 引入一个频域滑动窗口(Translated Fourier Score),在解码步骤中从低频向高频切换。
  • 定义一个自适应傅里叶校准器,根据解码置信度调节引导强度βs。
  • 通过将 Translated Fourier Score 与模型的基础置信度相加并进行自适应加权,计算融合分数。
  • 将该方法应用于 LLaDA(全双向)和 SDAR(分块因果),并在数学与代码基准上评估。
  • 给出消融研究以验证自适应加权和窗口大小选择的有效性。

实验结果

研究问题

  • RQ1dLLM隐藏状态中的低频和高频成分是否与生成文本中的结构性与细节内容相一致?
  • RQ2在dLLMs中,频域解码策略能否优于标准基于置信度的解码在非自回归生成上的表现?
  • RQ3结构到细节的生成轨迹是否可在不同的dLLM架构(全双向注意力 vs 分块因果注意力)上泛化?

主要发现

  • FourierSampler 在所评估的任务与模型上表现出一致的改进。
  • 在 LLaDA1.5-8B 上,其在 MBPP 上相对提升最高达到 20.4%,在 Countdown 上达到 14.1%。
  • 在 LLaDA-8B-Instruct 上,在 MBPP 上相对提升最高达到 16.0%。
  • 在 SDAR-4B-Chat 上,在 Countdown 上相对提升最高达到 45.1%。
  • 在 SDAR-1.7B-Chat 上,在 MBPP 上相对提升最高达到 26.5%。
  • 在某些设置下,该方法甚至超过同等规模的自回归模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。