QUICK REVIEW

[論文レビュー] Advancing Block Diffusion Language Models for Test-Time Scaling

Yi Lu, Deyang Kong|arXiv (Cornell University)|Feb 10, 2026

Topic Modeling被引用数 0

ひとこと要約

要約: 本論文は BACD と TCCF を導入し、Block Diffusion Language Models（BDLMs）のテスト時スケーリングを適応的に行えるようにする。推論を高速化し、複雑なベンチマークで推論能力を向上させた。

ABSTRACT

Recent advances in block diffusion language models have demonstrated competitive performance and strong scalability on reasoning tasks. However, existing BDLMs have limited exploration under the test-time scaling setting and face more severe decoding challenges in long Chain-of-Thought reasoning, particularly in balancing the decoding speed and effectiveness. In this work, we propose a unified framework for test-time scaling in BDLMs that introduces adaptivity in both decoding and block-wise generation. At the decoding level, we propose Bounded Adaptive Confidence Decoding (BACD), a difficulty-aware sampling strategy that dynamically adjusts denoising based on model confidence, accelerating inference while controlling error accumulation. Beyond step-wise adaptivity, we introduce Think Coarse, Critic Fine (TCCF), a test-time scaling paradigm that allocates large block sizes to exploratory reasoning and smaller block sizes to refinement, achieving an effective efficiency-effectiveness balance. To enable efficient and effective decoding with a large block size, we adopt Progressive Block Size Extension, which mitigates performance degradation when scaling block sizes. Extensive experiments show that applying BACD and TCCF to TDAR-8B yields significant improvements over strong baselines such as TraDo-8B (2.26x speedup, +11.2 points on AIME24). These results mark an important step toward unlocking the potential of BDLMs for test-time scaling in complex reasoning tasks.

研究の動機と目的

BDLMの長鎖推論をテスト時スケーリング下で効率化する動機付け。
速度と精度のバランスを取る適応デコーディングとブロックサイズ戦略の開発。
大ブロックデコーディングを可能にする Progressive Block Size Extension の提案。
数学、コード、STEM 推論ベンチマークでの改善を実証。
再現性のためのオープンソースコードとモデルの提供。

提案手法

Bounded Adaptive Confidence Decoding (BACD): 過去の平均信頼度を用い、各ステップでアンマスクするトークンを選択する動的で境界付き閾値戦略。
Think Coarse, Critic Fine (TCCF): テスト時推論中、探索的思考には大きいブロックサイズを割り当て、リファインメント段階には小さなブロックを割り当てる。
Progressive Block Size Extension の適用: ブロックサイズを段階的に増加させる多段階ファインチューニング手法で、ブロックをスケールする際の劣化を緩和。
BDLM に合わせたサンプリング戦略の適用: 上下の信頼度閾値を両方境界化して、速度と精度のトレードオフを安定化。
数学、コード生成、STEM 推論に跨る六つのベンチマークで評価。
B=4 から B=64 への Progressive block-size expansion を含むトレーニング詳細と、8B モデルの B=16 の選択を提供。

実験結果

リサーチクエスチョン

RQ1BDLMの長い推論経路内でテスト時デコーディングは難易度の変化にどう適応できるか？
RQ2推論段階ごとにブロックサイズを変えると、テスト時のスケーリングにおける効率-精度のトレードオフは改善されるか？
RQ3Progressive block-size extension は大ブロックを用いた訓練と推論を安定化させるか？
RQ4BACD と TCCF は数学、コード、STEM 推論ベンチマークでの性能と速度にどのような影響を与えるか？

主な発見

方法	Math500 (TPF)	Math500 (ACC)	AIME24 (TPF)	AIME24 (ACC)	AIME25 (TPF)	AIME25 (ACC)	AMC23 (TPF)	AMC23 (ACC)	LCB (TPF)	LCB (ACC)	GPQA (TPF)	GPQA (ACC)	AVG (TPF)	AVG (ACC)
+ BACD +TCCF (TDAR-8B-thinking, ours)	1.75	84.0	3.04	42.9	2.79	35.8	2.68	80.0	1.32	42.6	1.39	50.0	2.16	55.9

BACD を用いた TDAR-8B-思考は、デコードをより速くしベースラインより高い精度（AIME24 での向上）を達成。
TCCF は推論性能をさらに向上させ、ベンチマーク全体で速度と精度のトレードオフを改善。
Progressive Block Size Extension はブロックサイズを拡大した際の性能劣化を緩和し、直接的な拡大よりも大幅な利得を生む。
BACD は信頼度閾値の変化に対して安定した性能を維持し、Dynamic Confidence Decoding より安定性と頑健性で上回る。
BACD と TCCF は長い生成タスク（複雑な推論）での頑健性と性能を向上。
一般化: BACD と TCCF は TraDo-8B-Thinking も改善し、BDLMs への適用性が広いことを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。