[논문 리뷰] DynHD: Hallucination Detection for Diffusion Large Language Models via Denoising Dynamics Deviation Learning
DynHD는 토큰 엔트로피에서 의미 인식 증거를 구성하고 참조 궤적과 편차 기반 탐지기를 사용하여 확산 LLM의 환각을 탐지하며, 벤치마크 전반에서 최첨단 AUROC를 달성합니다.
Diffusion large language models (D-LLMs) have emerged as a promising alternative to auto-regressive models due to their iterative refinement capabilities. However, hallucinations remain a critical issue that hinders their reliability. To detect hallucination responses from model outputs, token-level uncertainty (e.g., entropy) has been widely used as an effective signal to indicate potential factual errors. Nevertheless, the fixed-length generation paradigm of D-LLMs implies that tokens contribute unevenly to hallucination detection, with only a small subset providing meaningful signals. Moreover, the evolution trend of uncertainty throughout the diffusion process can also provide important signals, highlighting the necessity of modeling its denoising dynamics for hallucination detection. In this paper, we propose DynHD that bridge these gaps from both spatial (token sequence) and temporal (denoising dynamics) perspectives. To address the information density imbalance across tokens, we propose a semantic-aware evidence construction module that extracts hallucination-indicative signals by filtering out non-informative tokens and emphasizing semantically meaningful ones. To model denoising dynamics for hallucination detection, we introduce a reference evidence generator that learns the expected evolution trajectory of uncertainty evidence, along with a deviation-based hallucination detector that makes predictions by measuring the discrepancy between the observed and reference trajectories. Extensive experiments demonstrate that DynHD consistently outperforms state-of-the-art baselines while achieving higher efficiency across multiple benchmarks and backbone models.
연구 동기 및 목표
- 확산 LLM(D-LLMs)이 고정 길이 시퀀스와 반복 디노이징을 사용하는 데 있어 신뢰할 수 있는 환각 탐지의 동기를 부여합니다.
- 정보 밀도 불균형으로 탐지 신호가 희석되는 토큰 간 문제를 다룹니다.
- 불확실성의 시간적 진화를 모델링하여 환각의 프로세스 수준 신호를 포착합니다.
- 의미 인식 증거를 구성하고 참조 궤적의 편차를 학습하는 2단계 프레임워크를 개발합니다.
- 다양한 데이터셋과 백본 D-LLMs 전반에서 강건성과 효율성을 시연합니다.
제안 방법
- 의미 인식 증거 구성: 비정보적 구조 토큰을 필터링하고 의미 토큰의 엔트로피를 각 단계에서 세 가지 통계로 요약(의미 토큰의 평균, 최대 엔트로피, 상위 k 엔트로피의 평균).
- 단계별 통계로부터 증거 궤도 E = (a_T, a_{T-1}, ..., a_0)을 구축.
- 동적 편차 학습: 질의에 조건화된 참조 증거 다이나폼 생성기 g_theta를 학습하여 정상 증거 진화를 모델링.
- 관찰된 증거 a_t, 참조 a_hat_t, 그리고 그 차이 Delta a_t를 학습 가능한 시간 가중치와 결합하여 환각 여부를 예측하는 편차 기반 탐지기를 사용.
- EMA 기반 적응 경계를 guided로 late-stage stagnation과 불확실성의 잠재적 반등을 강조하는 정규화항 도입.
- End-to-end 목적 함수는 분류 손실에 경로 및 반등 규제항(L_cls + lambda1*L_path + lambda2*L_reb)을 결합합니다.

실험 결과
연구 질문
- RQ1의미 토큰 필터링과 다변량 엔트로피 통계가 D-LLMs의 환각 신호를 어떻게 향상시키는가?
- RQ2참조 궤적으로 디노이징 다이내믹스를 모델링하는 것이 상태-오브-더-아트 궤적 기반 방법보다 환각 탐지를 개선하는가?
- RQ3후반 단계의 다이내믹스(정체/반등)가 여러 데이터셋에서 D-LLMs의 사실성에 더 강한 단서를 제공하는가?
- RQ4DynHD 프레임워크가 서로 다른 D-LLM 백본과 QA 작업에서 견고하고 효율적인가?
- RQ5증거 구성 및 편차 모델링 구성요소에 대한 차집합이 탐지 성능에 미치는 영향은 무엇인가?
주요 결과
- DynHD는 LLaDA-8B-Instruct 및 Dream-7B-Instruct 백본에서 TriviaQA, HotpotQA, CSQA에 대해 최첨단 AUROC를 달성하고, 베이스라인 대비 평균 이득을 기록합니다.
- DynHD는 보고된 설정에서 TraceDet보다 평균 AUROC 차이 12.2%를 상회합니다.
- 차단 연구에서 토큰 필터링과 세 가지 엔트로피 통계가 강한 성능에 필수적임을 보여주며, 구성 요소를 제거하면 AUROC가 감소합니다.
- 균일한 시간적 풀링과 주의 기반 가중치 부여가 증거의 시간적 집계를 개선하며, 후반 단계의 강조는 정체/반등 신호와 일치합니다.
- DynHD는 멀티 샘플 방법보다 효율적이면서도 정확도가 더 높은 등 속도-정확도 균형이 우수합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.