[논문 리뷰] Why Your Deep Research Agent Fails? On Hallucination Evaluation in Full Research Trajectory
이 논문은 계획-검색-요약 전체 경로를 따라 환각을 점검하여 DRAs에 대한 프로세스 인지 평가 프레임워크를 도입하고, 실패의 근본 원인을 진단하기 위해 PING 분류법과 DeepHalluBench를 제안한다.
Diagnosing the failure mechanisms of Deep Research Agents (DRAs) remains a critical challenge. Existing benchmarks predominantly rely on end-to-end evaluation, obscuring critical intermediate hallucinations, such as flawed planning, that accumulate throughout the research trajectory. To bridge this gap, we propose a shift from outcome-based to process-aware evaluation by auditing the full research trajectory. We introduce the PIES Taxonomy to categorize hallucinations along functional components (Planning vs. Summarization) and error properties (Explicit vs. Implicit). We instantiate this taxonomy into a fine-grained evaluation framework that decomposes the trajectory to rigorously quantify these hallucinations. Leveraging this framework to isolate 100 distinctively hallucination-prone tasks including adversarial scenarios, we curate DeepHalluBench. Experiments on six state-of-theart DRAs reveal that no system achieves robust reliability. Furthermore, our diagnostic analysis traces the etiology of these failures to systemic deficits, specifically hallucination propagation and cognitive biases, providing foundational insights to guide future architectural optimization. Data and code are available at https://github.com/yuhao-zhan/DeepHalluBench.
연구 동기 및 목표
- 최종 결과뿐만 아니라 전체 연구 경로(plan-search-summarize)에 걸쳐 환각을 진단할 필요성을 제시한다.
- DRAs에서 환각을 분류하기 위한 분류법을 제안하고 세밀한 감사가 가능하도록 한다.
- DRAs를 위한 환각-prone 작업으로 구성된 벤치마크(DeepHalluBench)를 만들어 DRAs를 스트레스 테스트한다.
- 환각에 기여하는 DRAs의 체계적 결함을 식별하고 아키텍처 개선에 대한 지침을 제공한다.
제안 방법
- PING 분류법을 제안하여 환각을 네 가지 유형으로 분류한다: Propagation, Intent, Noise-induced, and Grounding.
- 경로를 원자적 행동, 주장, 그리고 검증을 위한 하위 질의로 분해하는 세밀한 평가 프레임워크로 구현한다.
- 고유하게 환각에 취약한 100개의 서로 다른 작업으로 구성된 스트레스 테스트 세트(DeepHalluBench)를 큐레이션한다.
- 실험을 여섯 가지 대표 DRAs에 대해 수행하여 벤치마크 전반의 환각 취약성 성과를 평가한다.
- 진단 결과를 분석하여 실패를 전파(Propagation)와 인지 편향에 귀속시키고 아키텍처 개선을 안내한다.
실험 결과
연구 질문
- RQ1DRAs의 전체 연구 경로에서 주요 환각 실패 모드는 무엇인가?
- RQ2프로세스 인지 평가 프레임워크가 엔드-투-엔드 지표가 놓치는 중간 환각을 드러낼 수 있는가?
- RQ3PING 분류법은 실제로 DRA 환각을 분류하는 데 얼마나 효과적인가?
- RQ4DRAs에서 환각 전파에 가장 기여하는 아키텍처나 인지 편향은 무엇인가?
주요 결과
- DRAs는 환각에 취약한 스트레스 테스트 세트에서 무시할 수 없는 신뢰성 차이가 나타난다.
- 프로세스 인지 감사 프레임워크가 엔드-투-엔드 지표가 간과하는 중간 환각을 드러낸다.
- PING 분류법은 환각을 Propagation, Intent, Noise-induced, Grounding 카테고리로 효과적으로 분해한다.
- 환각 전파와 인지 편향은 DRA 실패의 주요 기여 요인이다.
- DeepHalluBench는 DRAs 간의 환각 탄력성을 진단하고 비교하기 위한 타깃 벤치마크를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.