Skip to main content
QUICK REVIEW

[论文解读] Why Your Deep Research Agent Fails? On Hallucination Evaluation in Full Research Trajectory

Yuhao Zhan, Tianyu Fan|arXiv (Cornell University)|Jan 30, 2026
Adversarial Robustness in Machine Learning被引用 0
一句话总结

本文通过审计整个计划-搜索-摘要轨迹中的幻觉,提出面向过程的 Deep Research Agents (DRA) 评估框架,提出 PING 分类法和 DeepHalluBench,以诊断失败的系统性原因。

ABSTRACT

Diagnosing the failure mechanisms of Deep Research Agents (DRAs) remains a critical challenge. Existing benchmarks predominantly rely on end-to-end evaluation, obscuring critical intermediate hallucinations, such as flawed planning, that accumulate throughout the research trajectory. To bridge this gap, we propose a shift from outcome-based to process-aware evaluation by auditing the full research trajectory. We introduce the PIES Taxonomy to categorize hallucinations along functional components (Planning vs. Summarization) and error properties (Explicit vs. Implicit). We instantiate this taxonomy into a fine-grained evaluation framework that decomposes the trajectory to rigorously quantify these hallucinations. Leveraging this framework to isolate 100 distinctively hallucination-prone tasks including adversarial scenarios, we curate DeepHalluBench. Experiments on six state-of-theart DRAs reveal that no system achieves robust reliability. Furthermore, our diagnostic analysis traces the etiology of these failures to systemic deficits, specifically hallucination propagation and cognitive biases, providing foundational insights to guide future architectural optimization. Data and code are available at https://github.com/yuhao-zhan/DeepHalluBench.

研究动机与目标

  • 有必要诊断幻觉不仅在最终结果上,而是在整个研究轨迹(plan-search-summarize)中进行诊断的动机与必要性。
  • 提出一个分类法,用于对 DRA 的幻觉进行分类并实现细粒度审计。
  • 创建一个包含易产生幻觉任务的基准(DeepHalluBench),用于对 DRAs 进行压力测试。
  • 识别导致 DRAs 幻觉的系统性缺陷,并提供架构改进的指导。

提出的方法

  • 提出 PING 分类法,将幻觉分为四类:Propagation(传播)、Intent(意图)、Noise-induced(噪声引发)和 Grounding(落地/实锚)。
  • 将该分类法实例化为一个细粒度评估框架,将轨迹分解为原子动作、主张(claims)和待验证的子查询。
  • 策划一个压力测试集(DeepHalluBench),包含 100 个具有显著幻觉倾向的任务(包括对抗性场景)。
  • 在六个具有代表性的 DRA 上进行实验,评估基准下的幻觉易发性能。
  • 分析诊断结果,将失败归因于传播和认知偏差,为架构改进提供指导。

实验结果

研究问题

  • RQ1DRA 在完整研究轨迹中存在哪些主要的幻觉失效模式?
  • RQ2一个面向过程的评估框架是否能够揭示中间环节的幻觉,而被端到端指标所忽略?
  • RQ3PING 分类法在实际对 DRA 幻觉分类中的有效性如何?
  • RQ4哪些架构或认知偏差对 DRA 的幻觉传播贡献最大?

主要发现

  • 在易产生幻觉的压力测试集中,DRA 显示出不容忽视的可靠性缺口。
  • 面向过程的审计框架揭示了端到端指标忽略的中间幻觉。
  • PING 分类法能够将幻觉有效分解为传播、意图、噪声引发和落地等类别。
  • 幻觉传播和认知偏差是 DRA 失败的主要因素。
  • DeepHalluBench 提供了一个针对性的基准,用于诊断并比较 DRAs 在幻觉鲁棒性方面的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。