[논문 리뷰] Advancing Block Diffusion Language Models for Test-Time Scaling
The paper introduces BACD and TCCF to enable adaptive test-time scaling for Block Diffusion Language Models, achieving faster inference and improved reasoning on complex benchmarks.
Recent advances in block diffusion language models have demonstrated competitive performance and strong scalability on reasoning tasks. However, existing BDLMs have limited exploration under the test-time scaling setting and face more severe decoding challenges in long Chain-of-Thought reasoning, particularly in balancing the decoding speed and effectiveness. In this work, we propose a unified framework for test-time scaling in BDLMs that introduces adaptivity in both decoding and block-wise generation. At the decoding level, we propose Bounded Adaptive Confidence Decoding (BACD), a difficulty-aware sampling strategy that dynamically adjusts denoising based on model confidence, accelerating inference while controlling error accumulation. Beyond step-wise adaptivity, we introduce Think Coarse, Critic Fine (TCCF), a test-time scaling paradigm that allocates large block sizes to exploratory reasoning and smaller block sizes to refinement, achieving an effective efficiency-effectiveness balance. To enable efficient and effective decoding with a large block size, we adopt Progressive Block Size Extension, which mitigates performance degradation when scaling block sizes. Extensive experiments show that applying BACD and TCCF to TDAR-8B yields significant improvements over strong baselines such as TraDo-8B (2.26x speedup, +11.2 points on AIME24). These results mark an important step toward unlocking the potential of BDLMs for test-time scaling in complex reasoning tasks.
연구 동기 및 목표
- BDLM에서 테스트 시 스케일링 하에 효율적인 긴 체인 추론을 촉진한다.
- 속도와 정확성의 균형을 맞추기 위한 적응적 디코딩 및 블록 크기 전략을 개발한다.
- 대형 블록 디코딩을 가능하게 하는 Progressive Block Size Extension을 제안한다.
- 수학, 코드 및 STEM 추론 벤치마크에서 개선을 입증한다.
- 재현을 위한 오픈 소스 코드 및 모델을 제공한다.
제안 방법
- Bounded Adaptive Confidence Decoding (BACD) 제안: 과거 평균 자신감을 이용해 각 단계에서 어떤 토큰을 마스킹 해제할지 선택하는 동적이고 경계가 있는 임계값 전략.
- Think Coarse, Critic Fine (TCCF) 도입: 테스트 시간 추론 중 탐색적 사고에는 대형 블록 크기를, 정제 단계에는 더 작은 블록을 할당.
- Progressive Block Size Extension 적용: 블록 크기를 점진적으로 증가시켜 블록 확장 시 저하를 완화하는 다단계 파인튜닝 방법.
- BDLM에 적합하도록 샘플링 전략을 상한 및 하한 자신감 임계값을 모두 경계지어 속도-정확도 트레이드를 안정화한다.
- 수학, 코드 생성 및 STEM 추론에 걸친 여섯 벤치마크에서 평가한다.
- B=4에서 B=64까지의 점진적 블록 크기 확장 및 8B 모델에서 B=16 선택을 포함한 학습 세부 정보를 제공한다.
실험 결과
연구 질문
- RQ1BDLM에서 긴 추론 경로 내에서 다양한 난이도에 테스트 시 디코딩을 어떻게 적응시킬 수 있는가?
- RQ2추론 단계별로 다른 블록 크기를 조정하면 테스트 시 스케일링에서 효율-정확도 트레이드를 개선할 수 있는가?
- RQ3대형 블록을 사용할 때도 점진적 블록 크기 확장이 안정적인 학습과 추론을 가능하게 하는가?
- RQ4BACD와 TCCF가 수학, 코드 및 STEM 추론 벤치마크에서 성능과 속도에 어떤 영향을 미치는가?
주요 결과
| Method | 수학500 (TPF) | 수학500 (ACC) | AIME24 (TPF) | AIME24 (ACC) | AIME25 (TPF) | AIME25 (ACC) | AMC23 (TPF) | AMC23 (ACC) | LCB (TPF) | LCB (ACC) | GPQA (TPF) | GPQA (ACC) | AVG (TPF) | AVG (ACC) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| + BACD +TCCF (TDAR-8B-thinking, ours) | 1.75 | 84.0 | 3.04 | 42.9 | 2.79 | 35.8 | 2.68 | 80.0 | 1.32 | 42.6 | 1.39 | 50.0 | 2.16 | 55.9 |
- TDAR-8B-thinking with BACD achieves faster decoding (up to 3.37x speedup) and stronger accuracy on AIME24 than baselines.
- TCCF further improves reasoning performance and provides better speed-accuracy trade-offs across benchmarks.
- Progressive Block Size Extension mitigates performance degradation when scaling block sizes and yields substantial gains over direct expansion.
- BACD maintains stable performance across confidence thresholds and outperforms Dynamic Confidence Decoding in stability and robustness.
- BACD and TCCF improve robustness and performance on longer generation tasks (complex reasoning).
- Generalization: BACD and TCCF improve TraDo-8B-Thinking as well, showing broad applicability to BDLMs.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.