QUICK REVIEW

[論文レビュー] DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

Shidong Cao, Hongzhan Lin|arXiv (Cornell University)|Jan 7, 2026

Constraint Satisfaction and Optimization被引用数 0

ひとこと要約

DiffCoTは多段階の連鎖思考推論を拡散ベースのデノイジング処理として再定式化し、スライディングウィンドウを用いて中間ステップを回顧的に訂正できるようにし、LLMの露出バイアスを低減する。

ABSTRACT

Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.

研究の動機と目的

露出バイアスと自己回帰的CoT推論における誤り蓄積を低減する動機付け。
CoTを拡散に触発されたデノイジング処理によるグローバルに修正可能な軌道へ再定式化。
中間ステップの同時生成と改訂を、トークンレベルの自己回帰を維持しつつ実現。
因果的拡散ノイズを用いたステップレベルの拡散ノイジングとスライディングウィンドウデノイジング機構を導入。
複数の数学的推論ベンチマークに対する堅牢性と誤り訂正の向上を実証。

提案手法

CoTをステップの列として定義し、前方訓練を拡散スタイルのデノイジング問題として捉える。
各ステップごとに複数の候補応答を報酬ランキングしてステップレベルの前方ノイズ付与を構築し、低ノイズから高ノイズの軌道集合を作成。
次のステップを生成しつつ過去のステップを徐々にデノイズする拡散スライディングウィンドウを適用し、回顧的訂正を可能にする。
後のステップがより強いノイズを受ける因果拡散ノイズスケジュールを課し、時間的依存性を符号化する。
デノイズされたプレフィックスとノイジーなプレフィックスから構築された混在（勝ち/負け）シーケンスに対してDirect Preference Optimization（DPO）で最適化する。
既存の自己回帰モデル（LLM）を微調整して、拡散スタイルの推論を最小限のアーキテクチャ変更で統合する。

実験結果

リサーチクエスチョン

RQ1拡散スタイルのデノイジング処理は、LLMの連鎖思考推論における露出バイアスを緩和できるか。
RQ2スライディングウィンドウ拡散アプローチは、自己回帰生成を維持しつつ中間ステップの回顧的改訂を効果的に可能にするか。
RQ3因果拡散ノイズスケジューリングは、多段階推論の首尾一貫性と正確性にどのように影響するか。
RQ4DiffCoTは、Step-DPOおよびFull-Step-DPOと比較して、さまざまなバックボーンと数学ベンチマークでどの程度性能を発揮するか。

主な発見

DiffCoTは、3つの公開数学推論ベンチマークで複数のバックボーンに対して既存の優先度最適化手法を一貫して上回る。
アブレーションによって拡散ウィンドウサイズと因果的連結性のトレードオフが示される。ウィンドウが小さすぎるまたは大きすぎると性能が低下する。
Caudal（因果的）拡散ノイズスケジューリングが重要で、ノイズ進行を乱すと精度に著しく悪影響を及ぼす。
DiffCoTは腐敗したプレフィックスに対するロバスト性を向上させ、従来手法よりも強力な誤り訂正機能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。