Skip to main content
QUICK REVIEW

[論文レビュー] Diffusion Language Models Are Natively Length-Aware

Vittorio Rossi, Giacomo Cirò|arXiv (Cornell University)|Mar 6, 2026
Topic Modeling被引用数 0
ひとこと要約

この論文は、初期の EoS ロジットから長さ信号を抽出して生成前に拡散キャンバスをトリミングする SmartCrop を提案し、4 つのベンチマークで性能低下を最小限に抑えつつ FLOPs を大幅に削減します。

ABSTRACT

Unlike autoregressive language models, which terminate variable-length generation upon predicting an End-of-Sequence (EoS) token, Diffusion Language Models (DLMs) operate over a fixed maximum-length context window for a predetermined number of denoising steps. However, this process is independent of the required response length, resulting in computational waste for the majority of short responses common in reasoning and chat tasks. To address this problem, we conjecture that the latent prompt representation contains sufficient information to estimate the required output length. We provide empirical evidence for this phenomenon and propose a zero-shot mechanism to dynamically crop the context window before generation begins, leading to fewer diffusion steps and substantial computational savings. We evaluate our approach on four benchmarks with diverse tasks -- GSM8K (reasoning), HumanEval (code generation), IfEval (instruction following), and LongFormQA (question answering) -- revealing massive efficiency gains at minimal performance impact. We report significant reductions in FLOPs across all tasks, with no statistically significant performance degradation, and significant performance improvements in 2 out of 4 tasks.

研究の動機と目的

  • 固定長キャンバスと EoS パディングによって生じる拡散言語モデルの推論浪費の削減の必要性を動機づける。
  • 潜在的プロンプト表現から出力長を予測する零-shot のモデルネイティブ機構を提案する。
  • ダイナミックなキャンバスのトリミングが計算量(FLOPs)を削減し、タスク性能に最小限または正の影響を与えることを示す。
  • GSM8K、HumanEval、IfEval、LongFormQA の多様なベンチマークで、8B パラメータの拡散LM(LLaDA)を用いて評価する。
  • 長さ予測の頑健性を示し、長さ予測とパディングへの感度を分析する。

提案手法

  • 長さ予測を、キャンバス上の終了確率の累積推定として EoS ロジットを用いて定式化する。
  • 閾値ベースのトリミング規則を定義する:累積終了確率が tau(例:0.9)を超えた最初の位置でトリミングする。
  • 短縮されたキャンバス上での標準的な拡散デノイズ前の再訓練不要・アーキテクチャ非依存の後処理として SmartCrop を適用する。
  • 固定キャンバスとトリミングキャンバスを用いて四つのベンチマークで LLaDA を評価し、FLOPs の節約とタスク固有の指標を報告する。
  • cropped 长さを摂動させ、ランダム長さのベースラインと比較する感度分析を実施して、インスタンス固有の長さ予測を検証する。
Figure 1 : Predicted Length Distributions. Our SmartCrop ( $\tau=0.9$ ) method successfully predicts task-specific output lengths across four benchmark datasets. The abrupt truncations observed in certain distributions correspond to context length constraints (refer to Section 4 for details).
Figure 1 : Predicted Length Distributions. Our SmartCrop ( $\tau=0.9$ ) method successfully predicts task-specific output lengths across four benchmark datasets. The abrupt truncations observed in certain distributions correspond to context length constraints (refer to Section 4 for details).

実験結果

リサーチクエスチョン

  • RQ1EoS パディングで訓練された DLM が、必要な出力長に関する内部的な、プロンプト条件付けられた信号を示すか。
  • RQ2初期 EoS ロジットに基づく零-shot キャンバスのトリミングが推論計算を減らし、性能を損なわず、あるいは改善するか。
  • RQ3SmartCrop は、推論長が異なるタスク(推論、コード、指示追従、QA)でどのように機能するか。
  • RQ4 cropped キャンバスの長さの摂動に対する予測の頑健性はどの程度か。

主な発見

BenchmarkMethodL_pAvg. Processed LengthMetric ↑FLOPs Saved % ↑Perf. Δ % ↑
IfEvalFC87.21367.20.4801--
IfEvalSC-0.5192.10.5342-98.47***+11.25*
IfEvalSC-0.75208.00.5521-98.05***+14.99**
IfEvalSC-0.9222.00.5459-97.64***+13.70**
IfEvalSC-0.95230.50.5450-97.37***+13.50**
IfEvalSC-0.99243.80.5694-96.92***+18.58***
GSM8KFC140.7396.70.5616--
GSM8KSC-0.5239.20.5452-69.39***-2.92
GSM8KSC-0.75261.20.5516-59.09***-1.77
GSM8KSC-0.9278.80.5457-50.15***-2.83
GSM8KSC-0.95288.50.5490-44.93***-2.25
GSM8KSC-0.99302.80.5520-37.01***-1.71
HumanEvalFC178.5690.50.4592--
HumanEvalSC-0.5488.20.4665-46.42***+1.59
HumanEvalSC-0.75506.70.4688-41.06***+2.08
HumanEvalSC-0.9521.90.4851-36.53***+5.65
HumanEvalSC-0.95531.00.4598-33.98***+0.13
HumanEvalSC-0.99543.60.4106-30.16***-10.59
LongFormQAFC77.6589.60.1341--
LongFormQASC-0.5155.10.2115-85.40***+57.72***
LongFormQASC-0.75164.40.2152-82.56***+60.48***
LongFormQASC-0.9172.70.2173-79.94***+62.01***
LongFormQASC-0.95177.50.2196-78.35***+63.73***
LongFormQASC-0.99185.20.2210-75.86***+64.83***
  • SmartCrop はタスク全体で FLOPs を 46–98% 還元し、平均で 67% 節約。
  • ほとんどのタスクで性能低下は統計的に有意でなく、IfEval と LongFormQA で顕著な改善が起きる。
  • GSM8K と HumanEval では、トリミングにより計算資源を大幅に節約しつつ、指標性能はほぼ変わらない。
  • IfEval では、キャンバスの短縮によりパディングによる劣化を抑制し、精度が向上。
  • LongFormQA では、トリミングにより ROUGE-1 が向上し、簡潔性と情報密度が増加。
  • 本手法は、デノイズされるキャンバスの量を大幅に減らしつつ、性能を維持または向上させる。
Figure 2 : Sensitivity of IfEval Performance to Context Length Perturbations. We analyze the robustness of SmartCrop ( $\tau=0.9$ ) by shifting the predicted length $\hat{L}$ by a deviation factor $\delta\in[-50\%,+50\%]$ . The blue curve shows the model performance (mean $\pm$ 95% CI) across these
Figure 2 : Sensitivity of IfEval Performance to Context Length Perturbations. We analyze the robustness of SmartCrop ( $\tau=0.9$ ) by shifting the predicted length $\hat{L}$ by a deviation factor $\delta\in[-50\%,+50\%]$ . The blue curve shows the model performance (mean $\pm$ 95% CI) across these

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。