[논문 리뷰] To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention
본 논문은 딥 검색 에이전트에서 의사결정 경계의 부정합(과도 탐색과 과소 탐색)을 식별하고, 언제 탐색할지 versus 대답할지를 진단하고 정렬하는 인과적 개입 기반 프레임워크 DAS를 제안하여 정확도와 효율성을 향상시킨다.
Deep search agents, which autonomously iterate through multi-turn web-based reasoning, represent a promising paradigm for complex information-seeking tasks. However, current agents suffer from critical inefficiency: they conduct excessive searches as they cannot accurately judge when to stop searching and start answering. This stems from outcome-centric training that prioritize final results over the search process itself. We identify the root cause as misaligned decision boundaries, the threshold determining when accumulated information suffices to answer. This causes over-search (redundant searching despite sufficient knowledge) and under-search (premature termination yielding incorrect answers). To address these errors, we propose a comprehensive framework comprising two key components. First, we introduce causal intervention-based diagnosis that identifies boundary errors by comparing factual and counterfactual trajectories at each decision point. Second, we develop Decision Boundary Alignment for Deep Search agents (DAS), which constructs preference datasets from causal feedback and aligns policies via preference optimization. Experiments on public datasets demonstrate that decision boundary errors are pervasive across state-of-the-art agents. Our DAS method effectively calibrates these boundaries, mitigating both over-search and under-search to achieve substantial gains in accuracy and efficiency. Our code and data are publicly available at: https://github.com/Applied-Machine-Learning-Lab/WWW2026_DAS.
연구 동기 및 목표
- 딥 검색 에이전트에서 의사결정 경계와 두 가지 오류 모드(과도 탐색과 과소 탐색)를 형식적으로 정의한다.
- 사실적 궤적과 대안적 궤적을 비교하는 인과적 개입을 사용해 의사결정 경계 오류를 진단한다.
- 선호 최적화를 통한 인과 피드백 학습으로 의사결정 경계 정렬(DAS)을 제안한다.
- 다수의 QA 데이터셋과 모델 규모에서 DAS가 정확도와 효율성을 향상시키는 것을 보여준다.
제안 방법
- 의사결정 경계를 잠재 지식 상태(Sufficient/Insufficient)와 행동(Search/Answer)로 형식적으로 모델링한다.
- 인과적 개입(do-operator)을 사용해 반사실적(대안적) 궤적을 생성하고 의사결정이 최적이었는지 진단한다.
- 인과 피드백에서 선호하는 반사실적과 거부된 사실적 궤적을 짝지어 선호 데이터셋을 구성한다.
- 구성된 선호를 사용해 정책을 미세조정하기 위해 Direct Preference Optimization(DPO)을 적용한다.
- NQ와 HotpotQA에서 유도된 20,000개의 선호 예제 데이터셋으로 학습하고, LoRA 튜닝으로 DAS 학습을 3에폭 수행한다.
- NQ, HotpotQA, 2WikiMultiHopQA에서 EM, Total Inference Time, ASQ, OSR, USR를 이용해 평가한다.
실험 결과
연구 질문
- RQ1RQ1: 최첨단 딥 검색 에이전트에서도 의사결정 경계 오류(OSR/USR)가 존재하는가?
- RQ2RQ2: 작업 특성이 의사결정 경계 오류에 어떤 영향을 미치는가?
- RQ3RQ3: 의사결정 경계 정렬(DAS)이 OSR/USR를 줄이고 정확도와 효율성을 향상시키는가?
- RQ4RQ4: 에이전트의 지식 경계와 의사결정 경계 간의 관계는 무엇인가?
- RQ5RQ5: 추론 단계 수가 의사결정 경계 오류의 발생에 어떤 영향을 미치는가?
주요 결과
- 의사결정 경계 오류(OSR 및 USR)는 모델과 워크플로우 전반에 널리 퍼져 있다.
- 결과 기반 RL은 정확도를 높일 수 있지만 탐색 비용을 증가시키는 경우가 많아 정확도와 효율성 간의 트레이드오프를 드러낸다.
- DAS는 QA 데이터셋과 모델 규모 전반에서 EM을 일관되게 향상시키고 OSR과 USR을 모두 감소시킨다.
- 절단 해석에서 과도 탐색 신호와 과소 탐색 신호의 균형이 최적 성능에 필요하다는 실험 결과를 보여준다.
- 지식-의사결정 격차가 있어 에이전트가 언제 탐색을 멈추고 내부 지식을 신뢰해야 하는지 자체 평가가 미흡하다는 것을 나타낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.