Skip to main content
QUICK REVIEW

[論文レビュー] DynHD: Hallucination Detection for Diffusion Large Language Models via Denoising Dynamics Deviation Learning

Yanyu Qian, Yue Tan|arXiv (Cornell University)|Mar 17, 2026
Mental Health via Writing被引用数 0
ひとこと要約

DynHDはトークンエントロピーから意味論的に aware な証拠を構築し、参照軌道と偏差ベースの検出器でデノイジングダイナミクスをモデル化することで、拡散LLMの幻覚を検出し、ベンチマークを通じて最先端のAUROCを達成します。

ABSTRACT

Diffusion large language models (D-LLMs) have emerged as a promising alternative to auto-regressive models due to their iterative refinement capabilities. However, hallucinations remain a critical issue that hinders their reliability. To detect hallucination responses from model outputs, token-level uncertainty (e.g., entropy) has been widely used as an effective signal to indicate potential factual errors. Nevertheless, the fixed-length generation paradigm of D-LLMs implies that tokens contribute unevenly to hallucination detection, with only a small subset providing meaningful signals. Moreover, the evolution trend of uncertainty throughout the diffusion process can also provide important signals, highlighting the necessity of modeling its denoising dynamics for hallucination detection. In this paper, we propose DynHD that bridge these gaps from both spatial (token sequence) and temporal (denoising dynamics) perspectives. To address the information density imbalance across tokens, we propose a semantic-aware evidence construction module that extracts hallucination-indicative signals by filtering out non-informative tokens and emphasizing semantically meaningful ones. To model denoising dynamics for hallucination detection, we introduce a reference evidence generator that learns the expected evolution trajectory of uncertainty evidence, along with a deviation-based hallucination detector that makes predictions by measuring the discrepancy between the observed and reference trajectories. Extensive experiments demonstrate that DynHD consistently outperforms state-of-the-art baselines while achieving higher efficiency across multiple benchmarks and backbone models.

研究の動機と目的

  • 拡散LLM(D-LLMs)が固定長シーケンスと反復的デノイズを用いる点を考慮し、信頼性の高い幻覚検出を動機づける。
  • トークン間の情報密度不均衡を解消し、検出信号を希薄化させる要因に対処する。
  • 不確実性の時間的進化(デノイズダイナミクス)をモデル化し、幻覚のプロセスレベル信号を捉える。
  • 意味論的にawareな証拠を構築し、参照軌道からの逸脱を学習する2段階フレームワークを開発する。
  • 複数のデータセットとバックボーンD-LLMsに対して頑健性と効率性を実証する。

提案手法

  • 意味論的証拠の構築:無情報性の高い構造トークンをフィルタリングし、意味的トークンのエントロピーを3つの統計量で要約する(意味的トークンの平均、最大エントロピー、トップkエントロピーの平均)。
  • ステップごとに統計量から証拠軌道E = (a_T, a_{T-1}, ..., a_0)を構築する。
  • デノイングダイナミクス学習:参照証拠ダイナミクス生成器g_thetaを問い合わせに条件付けして、正常な証拠の進化をモデル化する。
  • 観測証拠a_tおよび参照a_hat_tとその差分Delta a_tを学習可能な時間的重みと組み合わせて幻覚を予測する偏差ベース検出器を使用する。
  • 遅い段階の停滞と不確実性の潜在的な反発をEMAベースの適応境界に導かれた正則化項で強調する。
  • エンドツーエンドの目的は分類損失と経路・反発正則化を組み合わせる(L_cls + lambda1*L_path + lambda2*L_reb)。
Figure 1: Visualization of spatial uncertainty distribution during decoding. Tokens exhibiting the highest entropy spikes serve as the primary indicators of factual instability. On the contrary, intermediate and structural tokens provide limited cues for hallucination detection.
Figure 1: Visualization of spatial uncertainty distribution during decoding. Tokens exhibiting the highest entropy spikes serve as the primary indicators of factual instability. On the contrary, intermediate and structural tokens provide limited cues for hallucination detection.

実験結果

リサーチクエスチョン

  • RQ1意味 token フィルタリングと多変量エントロピー統計はD-LLMsの幻覚信号を改善できるか。
  • RQ2参照軌道を用いたデノイ징ダイナミクスのモデリングは、最先端の軌道ベース手法よりも幻覚検出を改善できるか。
  • RQ3遅い段階のダイナミクス(停滞/反発)はD-LLMsの事実性の手がかりを強化するか。
  • RQ4DynHDフレームワークは異なるD-LLMバックボーンとQAタスクで堅牢かつ効率的か。
  • RQ5証拠構築と偏差モデリングの構成要素のアブレーションが検出性能に与える影響はどれか。

主な発見

  • DynHDはLLaDA-8B-InstructおよびDream-7B-InstructのバックボーンにおいてTriviaQA、HotpotQA、CSQAで最先端のAUROCを達成し、ベースラインに対する平均的利得を示す。
  • DynHDは報告設定でTraceDetを平均AUROCマージンで12.2%上回る。
  • アブレーション研究はトークンフィルタリングと3つのエントロピー統計が強力な性能に必須であり、構成要素を除去するとAUROCが劣化することを示す。
  • 一様な時間的プーリングと注意メカニズムベースの重み付けは証拠の時間的集計を改善し、遅い段階の強調は停滞/反発信号と一致する。
  • DynHDはマルチサンプル手法よりも速度対性能のトレードオフで有利であり、より高い精度を提供する。
(a)
(a)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。