QUICK REVIEW

[논문 리뷰] FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

Siyang He, Qiqi Wang|arXiv (Cornell University)|2026. 01. 30.

Topic Modeling인용 수 0

한 줄 요약

FourierSampler는 확산 LLM에 대한 주파수-domain 디코딩 전략을 도입하여 구조에서 세부로 점진적으로 낮은 주파수부터 높은 주파수 구성요소에 초점을 맞춤으로써 기본 모델 대비 일관된 이득을 얻는다.

ABSTRACT

Despite the non-autoregressive potential of diffusion language models (dLLMs), existing decoding strategies demonstrate positional bias, failing to fully unlock the potential of arbitrary generation. In this work, we delve into the inherent spectral characteristics of dLLMs and present the first frequency-domain analysis showing that low-frequency components in hidden states primarily encode global structural information and long-range dependencies, while high-frequency components are responsible for characterizing local details. Based on this observation, we propose FourierSampler, which leverages a frequency-domain sliding window mechanism to dynamically guide the model to achieve a "structure-to-detail" generation. FourierSampler outperforms other inference enhancement strategies on LLADA and SDAR, achieving relative improvements of 20.4% on LLaDA1.5-8B and 16.0% on LLaDA-8B-Instruct. It notably surpasses similarly sized autoregressive models like Llama3.1-8B-Instruct.

연구 동기 및 목표

확산 LLM 은닉 상태의 스펙트럼 특성을 조사하여 주파수 구성요소가 언어 구조와 세부사항에 어떻게 관련되는지 이해한다.
저주파 구조와 고주파 세부 정보를 활용하기 위한 주파수 주도 디코딩 방법(FourierSampler)을 개발한다.
주파수 유도 생성이 다양한 dLLM 아키텍처에서 코드 및 수학 벤치마크의 성능을 향상시킨다는 것을 입증한다.
전체 양방향 어텐션과 블록형 인과 어텐션 모델 전반에 걸친 FourierSampler의 강건성을 보여준다.

제안 방법

dLLM의 주파수 도메인 분석을 수행하여 저주파 구성요소가 글로벌 구조를, 고주파 구성요소가 국부 세부를 인코딩함을 보인다.
저주파에서 고주파로 decoding 단계에 걸쳐 이동하는 주파수 도메인 슬라이딩 윈도우(번역된 푸리에 점수)를 도입한다.
디코딩 신뢰도에 따라 가이던스 강도 βs를 조절하는 적응형 푸리에 보정기를 정의한다.
Translated Fourier Score를 모델의 기본 신뢰도에 적응적 가중치를 적용해 더해 Fusion/score를 계산한다.
LLaDA(전면 양방향) 및 SDAR(블록형 인과) 모델에 이 방법을 적용하고 수학 및 코드 벤치마크에서 평가한다.
적응형 가중치와 윈도우 크기 선택을 검증하기 위한 ablation 연구를 제공한다.

실험 결과

연구 질문

RQ1dLLM 은닉 상태의 저주파 및 고주파 구성요소가 생성된 텍스트의 구조적 콘텐츠와 상세 콘텐츠에 정렬되는가?
RQ2주파수 도메인 디코딩 전략이 dLLM에서 표준 신뢰도 기반 디코딩보다 비자기회귀 생성 성능을 향상시키는가?
RQ3구조에서 상세로의 생성 추이가 서로 다른 dLLM 아키텍처(전체 양방향 대 블록형 인과 주의)에서도 일반화되는가?

주요 결과

FourierSampler는 평가된 과제와 모델 전반에서 일관된 향상을 제공한다.
LLaDA1.5-8B에서 MBPP에서 최대 20.4% 상대 향상, Countdown에서 14.1%.
LLaDA-8B-Instruct에서 MBPP에서 최대 16.0% 상대 향상.
SDAR-4B-Chat에서 Countdown에서 최대 45.1% 상대 향상.
SDAR-1.7B-Chat에서 MBPP에서 최대 26.5% 상대 향상.
일부 설정에서 유사 크기의 자기회귀 모델조차 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.