Skip to main content
QUICK REVIEW

[論文レビュー] FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

Siyang He, Qiqi Wang|arXiv (Cornell University)|Jan 30, 2026
Topic Modeling被引用数 0
ひとこと要約

FourierSampler は拡散 LLM に対して周波数域デコード戦略を導入し、構造を先に、ディテールを後に強調することでコードと数学タスクの性能を向上させ、従来の自己回帰モデルより一貫した改善を達成する。

ABSTRACT

Despite the non-autoregressive potential of diffusion language models (dLLMs), existing decoding strategies demonstrate positional bias, failing to fully unlock the potential of arbitrary generation. In this work, we delve into the inherent spectral characteristics of dLLMs and present the first frequency-domain analysis showing that low-frequency components in hidden states primarily encode global structural information and long-range dependencies, while high-frequency components are responsible for characterizing local details. Based on this observation, we propose FourierSampler, which leverages a frequency-domain sliding window mechanism to dynamically guide the model to achieve a "structure-to-detail" generation. FourierSampler outperforms other inference enhancement strategies on LLADA and SDAR, achieving relative improvements of 20.4% on LLaDA1.5-8B and 16.0% on LLaDA-8B-Instruct. It notably surpasses similarly sized autoregressive models like Llama3.1-8B-Instruct.

研究の動機と目的

  • 拡散 LLM の隠れ状態のスペクトル特性を調べ、周波数成分が言語的構造とディテールにどのように関連するかを理解する。
  • 低周波構造と高周波ディテールを活用する周波数駆動デコード法(FourierSampler)を開発する。
  • 周波数指向生成がさまざまな dLLM アーキテクチャに対してコードと数学のベンチマークで性能を改善することを実証する。
  • FourierSampler の全双方向注意とブロック-wise 因果注意モデル全体での頑健性を示す。

提案手法

  • dLLMs の周波数領域分析を実施し、低周波成分がグローバル構造を、高周波成分が局所ディテールを符号化することを示す。
  • デコード過程を低周波から高周波へ移動させる周波数領域スライディングウィンドウ(Translated Fourier Score)を導入する。
  • Adaptive Fourier Calibrator を定義し、デコードの信頼度に基づいてガイダンス強度 βs を調整する。
  • Translated Fourier Score をモデルの基礎信頼度に適応的ウェ weighting で加算して Fusion/score を計算する。
  • 本手法を LLaDA(全双方向)と SDAR(ブロックごとの因果)に適用し、数学およびコードベンチマークで評価する。
  • 適応ウェ weighting とウィンドウサイズの選択を検証するアブレーションを提供する。

実験結果

リサーチクエスチョン

  • RQ1dLLM の隠れ状態の低周波および高周波成分は、生成テキストの構造とディテールにそれぞれ一致するのか。
  • RQ2周波数領域デコード戦略は、dLLMs における標準の信頼度ベースデコードより非自己回帰生成を改善できるのか。
  • RQ3構造からディテールへの生成軌道は、全双方向注意とブロック-wise 因果注意の異なる dLLM アーキテクチャ間で一般化するのか。

主な発見

  • FourierSampler は評価対象のタスクとモデル全体で一貫した改善をもたらす。
  • LLaDA1.5-8B では MBPP で最大 20.4% の相対改善、Countdown で 14.1% の相対改善を達成。
  • LLaDA-8B-Instruct では MBPP で最大 16.0% の相対改善を達成。
  • SDAR-4B-Chat では Countdown で最大 45.1% の相対改善を達成。
  • SDAR-1.7B-Chat では MBPP で最大 26.5% の相対改善を達成。
  • 同程度のサイズの自己回帰モデルを上回る設定もある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。