Skip to main content
QUICK REVIEW

[論文レビュー] Advancing Block Diffusion Language Models for Test-Time Scaling

Yi Lu, Deyang Kong|arXiv (Cornell University)|Feb 10, 2026
Topic Modeling被引用数 0
ひとこと要約

要約: 本論文は BACD と TCCF を導入し、Block Diffusion Language Models(BDLMs)のテスト時スケーリングを適応的に行えるようにする。推論を高速化し、複雑なベンチマークで推論能力を向上させた。

ABSTRACT

Recent advances in block diffusion language models have demonstrated competitive performance and strong scalability on reasoning tasks. However, existing BDLMs have limited exploration under the test-time scaling setting and face more severe decoding challenges in long Chain-of-Thought reasoning, particularly in balancing the decoding speed and effectiveness. In this work, we propose a unified framework for test-time scaling in BDLMs that introduces adaptivity in both decoding and block-wise generation. At the decoding level, we propose Bounded Adaptive Confidence Decoding (BACD), a difficulty-aware sampling strategy that dynamically adjusts denoising based on model confidence, accelerating inference while controlling error accumulation. Beyond step-wise adaptivity, we introduce Think Coarse, Critic Fine (TCCF), a test-time scaling paradigm that allocates large block sizes to exploratory reasoning and smaller block sizes to refinement, achieving an effective efficiency-effectiveness balance. To enable efficient and effective decoding with a large block size, we adopt Progressive Block Size Extension, which mitigates performance degradation when scaling block sizes. Extensive experiments show that applying BACD and TCCF to TDAR-8B yields significant improvements over strong baselines such as TraDo-8B (2.26x speedup, +11.2 points on AIME24). These results mark an important step toward unlocking the potential of BDLMs for test-time scaling in complex reasoning tasks.

研究の動機と目的

  • BDLMの長鎖推論をテスト時スケーリング下で効率化する動機付け。
  • 速度と精度のバランスを取る適応デコーディングとブロックサイズ戦略の開発。
  • 大ブロックデコーディングを可能にする Progressive Block Size Extension の提案。
  • 数学、コード、STEM 推論ベンチマークでの改善を実証。
  • 再現性のためのオープンソースコードとモデルの提供。

提案手法

  • Bounded Adaptive Confidence Decoding (BACD): 過去の平均信頼度を用い、各ステップでアンマスクするトークンを選択する動的で境界付き閾値戦略。
  • Think Coarse, Critic Fine (TCCF): テスト時推論中、探索的思考には大きいブロックサイズを割り当て、リファインメント段階には小さなブロックを割り当てる。
  • Progressive Block Size Extension の適用: ブロックサイズを段階的に増加させる多段階ファインチューニング手法で、ブロックをスケールする際の劣化を緩和。
  • BDLM に合わせたサンプリング戦略の適用: 上下の信頼度閾値を両方境界化して、速度と精度のトレードオフを安定化。
  • 数学、コード生成、STEM 推論に跨る六つのベンチマークで評価。
  • B=4 から B=64 への Progressive block-size expansion を含むトレーニング詳細と、8B モデルの B=16 の選択を提供。

実験結果

リサーチクエスチョン

  • RQ1BDLMの長い推論経路内でテスト時デコーディングは難易度の変化にどう適応できるか?
  • RQ2推論段階ごとにブロックサイズを変えると、テスト時のスケーリングにおける効率-精度のトレードオフは改善されるか?
  • RQ3Progressive block-size extension は大ブロックを用いた訓練と推論を安定化させるか?
  • RQ4BACD と TCCF は数学、コード、STEM 推論ベンチマークでの性能と速度にどのような影響を与えるか?

主な発見

方法Math500 (TPF)Math500 (ACC)AIME24 (TPF)AIME24 (ACC)AIME25 (TPF)AIME25 (ACC)AMC23 (TPF)AMC23 (ACC)LCB (TPF)LCB (ACC)GPQA (TPF)GPQA (ACC)AVG (TPF)AVG (ACC)
+ BACD +TCCF (TDAR-8B-thinking, ours)1.7584.03.0442.92.7935.82.6880.01.3242.61.3950.02.1655.9
  • BACD を用いた TDAR-8B-思考は、デコードをより速くしベースラインより高い精度(AIME24 での向上)を達成。
  • TCCF は推論性能をさらに向上させ、ベンチマーク全体で速度と精度のトレードオフを改善。
  • Progressive Block Size Extension はブロックサイズを拡大した際の性能劣化を緩和し、直接的な拡大よりも大幅な利得を生む。
  • BACD は信頼度閾値の変化に対して安定した性能を維持し、Dynamic Confidence Decoding より安定性と頑健性で上回る。
  • BACD と TCCF は長い生成タスク(複雑な推論)での頑健性と性能を向上。
  • 一般化: BACD と TCCF は TraDo-8B-Thinking も改善し、BDLMs への適用性が広いことを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。