QUICK REVIEW

[論文レビュー] Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models

Ziwei Luo, Ziqi Jin|arXiv (Cornell University)|Feb 2, 2026

Topic Modeling被引用数 0

ひとこと要約

Self-Rewarding Sequential Monte Carlo (SR-SMC) を導入し、マスク済み拡散言語モデルの推論時スケーリングを実現。パラレル粒子を用いた軌跡レベルの信頼度ベースサンプリングにより、追加学習なしでサンプルの質と多様性を向上させる。

ABSTRACT

This work presents self-rewarding sequential Monte Carlo (SMC), an inference-time scaling algorithm enabling effective sampling of masked diffusion language models (MDLMs). Our algorithm stems from the observation that most existing MDLMs rely on a confidence-based sampling strategy, where only tokens with the highest prediction confidence are preserved at each step. This restricts the generation to a noise-sensitive, greedy decoding paradigm, resulting in an inevitable collapse in the diversity of possible paths. We address this problem by launching multiple interacting diffusion processes in parallel, referred to as particles, for trajectory exploration. Importantly, we introduce the trajectory-level confidence as a self-rewarding signal for assigning particle importance weights. During sampling, particles are iteratively weighted and resampled to systematically steer generation towards globally confident, high-quality samples. Our self-rewarding SMC is verified on various masked diffusion language models and benchmarks, achieving significant improvement without extra training or reward guidance, while effectively converting parallel inference capacity into improved sampling quality. Our code is available at https://github.com/Algolzw/self-rewarding-smc.

研究の動機と目的

Greedy な MDLM サンプリングの多様性の制限に動機づけて対処する。
軌跡レベルの信頼度を自己報酬信号として用いる一般的な SR-SMC フレームワークを提案する。
SR-SMC が追加の報酬モデルなしで MDLM および dLLM のサンプル品質を向上させることを示す。
複数のモデルとベンチマークを用いた広範な実験を通じてスケーラビリティを示す。

提案手法

N 個の相互作用する拡散過程（粒子）を維持し、並行に複数の軌跡を探索する。
軌跡レベルの信頼度を、更新されたトークン上のトークン信頼度の積として定義し（式 (Eq. 13)）、粒子を重み付けする。
適応的リマスキングと unmask するトークンを選択する方針を備えた逆拡散カーネルを用いる（式 (Eq. 9–10) および Eq. 7–8 の方針）。
ESS に基づく適応再サンプルを含む標準の SMC ステップ（再サンプル、伝搬、再重み付け）を適用する（式 (Eq. 14)）。
離散トークンサンプリングのための温度制御付き Gumbel-Max のトリックを用いる（式 (Eq. 15)）。
軌跡レベルの信頼度がブートストラップ SMC 設定内の自然な自己報酬であることを理論的に正当化する（予測 Prop. 3.1）。

実験結果

リサーチクエスチョン

RQ1SR-SMC は追加の学習や外部報酬なしで MDLM および dLLM のサンプリング品質を向上させるか。
RQ2軌跡レベルの重み付けは MDLM におけるトークンレベルの信頼度と比べて探索と多様性を改善できるか。
RQ3SR-SMC は標準的なベンチマークに対して異なる MDLM および拡散ベース LLM でどのように性能を示すか。
RQ4粒子数と温度が SR-SMC の性能と安定性に与える影響はどの程度か。

主な発見

SR-SMC は MDLM（MDLM、BD3-LMs）および dLLMs（LLaDA-1.5、Dream-7B）で生成パープレキシティ（Gen. PPL）とサンプル品質を一貫して改善する。
粒子数（N）を増やすと段階的な利得が得られ、特に N=3 または 4 で顕著な改善が見られる。
SR-SMC を用いたブロックデコードの変法は、特定の BD3-LMs 構成で Gen. PPL を 20 未満にすることがあり、自動回帰ベースラインとの差を縮める。
SR-SMC は GSM8K、MATH、HumanEval、MBPP のベンチマークで性能を向上させ、モデルと長さに応じて平均で約 2–4 ポイントの利得を示す。
SR-SMC はサンプリング温度に対して頑健で、グリーディデコードと比較して低温時の反復を減少させる。
アブレーションを行っても、粒子数が控えめでも顕著な利得があり、ゼロショット設定でも SR-SMC の恩恵を受ける。
分析によれば、粒子のブロック間でのオーバーターゲットの非自明な割合があり、SR-SMC が非グリード軌道を探索することを確認している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。