[論文レビュー] Advancing Block Diffusion Language Models for Test-Time Scaling
要約: 本論文は BACD と TCCF を導入し、Block Diffusion Language Models(BDLMs)のテスト時スケーリングを適応的に行えるようにする。推論を高速化し、複雑なベンチマークで推論能力を向上させた。
Recent advances in block diffusion language models have demonstrated competitive performance and strong scalability on reasoning tasks. However, existing BDLMs have limited exploration under the test-time scaling setting and face more severe decoding challenges in long Chain-of-Thought reasoning, particularly in balancing the decoding speed and effectiveness. In this work, we propose a unified framework for test-time scaling in BDLMs that introduces adaptivity in both decoding and block-wise generation. At the decoding level, we propose Bounded Adaptive Confidence Decoding (BACD), a difficulty-aware sampling strategy that dynamically adjusts denoising based on model confidence, accelerating inference while controlling error accumulation. Beyond step-wise adaptivity, we introduce Think Coarse, Critic Fine (TCCF), a test-time scaling paradigm that allocates large block sizes to exploratory reasoning and smaller block sizes to refinement, achieving an effective efficiency-effectiveness balance. To enable efficient and effective decoding with a large block size, we adopt Progressive Block Size Extension, which mitigates performance degradation when scaling block sizes. Extensive experiments show that applying BACD and TCCF to TDAR-8B yields significant improvements over strong baselines such as TraDo-8B (2.26x speedup, +11.2 points on AIME24). These results mark an important step toward unlocking the potential of BDLMs for test-time scaling in complex reasoning tasks.
研究の動機と目的
- BDLMの長鎖推論をテスト時スケーリング下で効率化する動機付け。
- 速度と精度のバランスを取る適応デコーディングとブロックサイズ戦略の開発。
- 大ブロックデコーディングを可能にする Progressive Block Size Extension の提案。
- 数学、コード、STEM 推論ベンチマークでの改善を実証。
- 再現性のためのオープンソースコードとモデルの提供。
提案手法
- Bounded Adaptive Confidence Decoding (BACD): 過去の平均信頼度を用い、各ステップでアンマスクするトークンを選択する動的で境界付き閾値戦略。
- Think Coarse, Critic Fine (TCCF): テスト時推論中、探索的思考には大きいブロックサイズを割り当て、リファインメント段階には小さなブロックを割り当てる。
- Progressive Block Size Extension の適用: ブロックサイズを段階的に増加させる多段階ファインチューニング手法で、ブロックをスケールする際の劣化を緩和。
- BDLM に合わせたサンプリング戦略の適用: 上下の信頼度閾値を両方境界化して、速度と精度のトレードオフを安定化。
- 数学、コード生成、STEM 推論に跨る六つのベンチマークで評価。
- B=4 から B=64 への Progressive block-size expansion を含むトレーニング詳細と、8B モデルの B=16 の選択を提供。
実験結果
リサーチクエスチョン
- RQ1BDLMの長い推論経路内でテスト時デコーディングは難易度の変化にどう適応できるか?
- RQ2推論段階ごとにブロックサイズを変えると、テスト時のスケーリングにおける効率-精度のトレードオフは改善されるか?
- RQ3Progressive block-size extension は大ブロックを用いた訓練と推論を安定化させるか?
- RQ4BACD と TCCF は数学、コード、STEM 推論ベンチマークでの性能と速度にどのような影響を与えるか?
主な発見
| 方法 | Math500 (TPF) | Math500 (ACC) | AIME24 (TPF) | AIME24 (ACC) | AIME25 (TPF) | AIME25 (ACC) | AMC23 (TPF) | AMC23 (ACC) | LCB (TPF) | LCB (ACC) | GPQA (TPF) | GPQA (ACC) | AVG (TPF) | AVG (ACC) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| + BACD +TCCF (TDAR-8B-thinking, ours) | 1.75 | 84.0 | 3.04 | 42.9 | 2.79 | 35.8 | 2.68 | 80.0 | 1.32 | 42.6 | 1.39 | 50.0 | 2.16 | 55.9 |
- BACD を用いた TDAR-8B-思考は、デコードをより速くしベースラインより高い精度(AIME24 での向上)を達成。
- TCCF は推論性能をさらに向上させ、ベンチマーク全体で速度と精度のトレードオフを改善。
- Progressive Block Size Extension はブロックサイズを拡大した際の性能劣化を緩和し、直接的な拡大よりも大幅な利得を生む。
- BACD は信頼度閾値の変化に対して安定した性能を維持し、Dynamic Confidence Decoding より安定性と頑健性で上回る。
- BACD と TCCF は長い生成タスク(複雑な推論)での頑健性と性能を向上。
- 一般化: BACD と TCCF は TraDo-8B-Thinking も改善し、BDLMs への適用性が広いことを示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。