[論文レビュー] Diffusion LLMs can think EoS-by-EoS
この論文は、拡散型LLMが推論を改善するために終端シーケンス後のトークンを隠れたスクラッチパッドとして使用しているかどうかを調べ、いくつかのタスクで行動実験と因果介入実験を通じて証拠を示します。
Diffusion LLMs have been proposed as an alternative to autoregressive LLMs, excelling especially at complex reasoning tasks with interdependent sub-goals. Curiously, this is particularly true if the generation length, i.e., the number of tokens the model has to output, is set to a much higher value than is required for providing the correct answer to the task, and the model pads its answer with end-of-sequence (EoS) tokens. We hypothesize that diffusion models think EoS-by-EoS, that is, they use the representations of EoS tokens as a hidden scratchpad, which allows them to solve harder reasoning problems. We experiment with the diffusion models LLaDA1.5, LLaDA2.0-mini, and Dream-v0 on the tasks Addition, Entity Tracking, and Sudoku. In a controlled prompting experiment, we confirm that adding EoS tokens improves the LLMs' reasoning capabilities. To further verify whether they serve as space for hidden computations, we patch the hidden states of the EoS tokens with those of a counterfactual generation, which frequently changes the generated output to the counterfactual. The success of the causal intervention underscores that the EoS tokens, which one may expect to be devoid of meaning, carry information on the problem to solve. The behavioral experiments and the causal interventions indicate that diffusion LLMs can indeed think EoS-by-EoS.
研究の動機と目的
- Generation length が推論タスクにおける拡散LLMの性能にどう影響するかを探索する。
- 拡散LLMにおけるデコーディングステップと trailing EoS トークンの役割を分離する。
- EoSトークン表現が推論に寄与するという因果的証拠を提供する。
- 拡散モデル間で EoS-by-EoS 推論と overt chain-of-thought prompting を比較する。
提案手法
- 3つの instruction-tuned diffusion LLM(LLaDA1.5, LLaDA2.0-mini, Dream-v0)と autoregressive baselines(Llama3.1, Qwen3)をこれを含む実験対象とする。
- 生成長と trailing EoSトークンを変えて推論性能の変化を観察するために、制御されたプロンプトを使用する。
- EoSトークンの hidden state をパッチして出力への因果影響を評価する(反事実プロンプト)。
- 難易度の異なる追加問題、エンティティ追跡、 Sudoku データセットで推論を評価する。
- 拡散モデルの EoS-by-EoS 推論を、異なるトークン予算下での chain-of-thought prompting と比較する。
実験結果
リサーチクエスチョン
- RQ1Generation lengthを増やすと、タスク全体で拡散LLMの推論性能が向上するか?
- RQ2デコードステップとは独立して trailing EoS トークンは推論に寄与するか?
- RQ3EoS トークン表現はモデルの回答生成に因果的に関与しているか?
- RQ4EoS-by-EoS 推論は、拡散モデルと自回帰モデルの伝統的なチェーン・オブ・ソート prompting と比べてどうか?
主な発見
- Generation length は複数のタスクで拡散LLMの性能を向上させ、十分な長さで自回帰モデルを上回ることがある。
- 固定デコードステップ数で trailing EoS トークンを追加すると精度が向上するため、EoS トークンは隠れたスクラッチパッドとして機能することを示唆する。
- EoSトークン表現を入れ替える介入は出力を変化させ、EoSトークンが問題解決に用いられる情報を保持していることを示す。
- CoT promptingは自回帰モデルに利益をもたらし、特に容易なタスクで拡散モデルを上回るか同等となる場合があるが、大きなトークン予算下での効果は拡散モデルと同等以上となることがある。
- LLaDA2.0 はブロック因果的注意設計のため trailing EoS トークンからの利得が限定的である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。