[論文レビュー] To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention
論文は深層探索エージェントにおける意思決定境界のずれ(過探索と過小探索)を指摘し、DASという因果介入ベースのフレームワークを提案して探索と回答のタイミングを整合させ、精度と効率を向上させる。
Deep search agents, which autonomously iterate through multi-turn web-based reasoning, represent a promising paradigm for complex information-seeking tasks. However, current agents suffer from critical inefficiency: they conduct excessive searches as they cannot accurately judge when to stop searching and start answering. This stems from outcome-centric training that prioritize final results over the search process itself. We identify the root cause as misaligned decision boundaries, the threshold determining when accumulated information suffices to answer. This causes over-search (redundant searching despite sufficient knowledge) and under-search (premature termination yielding incorrect answers). To address these errors, we propose a comprehensive framework comprising two key components. First, we introduce causal intervention-based diagnosis that identifies boundary errors by comparing factual and counterfactual trajectories at each decision point. Second, we develop Decision Boundary Alignment for Deep Search agents (DAS), which constructs preference datasets from causal feedback and aligns policies via preference optimization. Experiments on public datasets demonstrate that decision boundary errors are pervasive across state-of-the-art agents. Our DAS method effectively calibrates these boundaries, mitigating both over-search and under-search to achieve substantial gains in accuracy and efficiency. Our code and data are publicly available at: https://github.com/Applied-Machine-Learning-Lab/WWW2026_DAS.
研究の動機と目的
- 深層探索エージェントにおける意思決定境界と2つの誤りモード(過探索と過小探索)を形式的に定義する。
- 因果介入(事実経路と反実仮想経路を比較)を用いて意思決定境界の誤りを診断する。
- 因果フィードバックを好みの最適化で学習する意思決定境界整合(DAS)を提案する。
- DASが複数のQAデータセットとモデルスケールにわたり精度と効率を改善することを示す。
提案手法
- 潜在知識状態(十分/不足)と行動(探索/回答)で意思決定境界を形式的にモデリングする。
- 因果介入(do演算子)を用いて反実仮想経路を生成し、意思決定が最適だったかを診断する。
- 因果フィードバックから好ましい反実仮想と却下された事実経路をペアリングして好みデータセットを構築する。
- 構築した好みを用いて直接好み最適化(DPO)を適用してポリシーを微調整する。
- NQとHotpotQAから導出された2万件の好み例データセットで訓練を行い、LoRAチューニングで DAS 訓練を3エポック実施する。
- NQ、HotpotQA、2WikiMultiHopQAでEM、総推論時間、ASQ、OSR、USRを評価する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 最先端の深層探索エージェントにも意思決定境界の誤り(OSR/USR)は存在するか。
- RQ2RQ2: タスク特性は意思決定境界の誤りにどのように影響するか。
- RQ3RQ3: Decision Boundary Alignment(DAS)はOSR/USRを低減し、精度と効率を改善するか。
- RQ4RQ4: エージェントの知識境界と意思決定境界の関係は何か。
- RQ5RQ5: 推論ステップ数は意思決定境界の誤りの蔓延にどう影響するか。
主な発見
- 意思決定境界の誤り(OSRとUSR)はモデルとワークフロー全体で広くみられる。
- 成果ベースのRLは精度を改善できるが、探索コストが増加することが多く、精度と効率のトレードオフを露呈する。
- DASは一貫してEMを改善し、QAデータセットとモデルスケール全体でOSRとUSRの双方を低減する。
- アブレーションは過剰探索と過少探索の両方の信号をバランスさせることが最適な性能に必要であることを示す。
- 知識と意思決定のギャップがあり、エージェントがいつ探索を止めて内部知識に頼るべきかを自己評価する能力が乏しい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。