[論文レビュー] To Retrieve or To Think? An Agentic Approach for Context Evolution
ACEは外部 retrievedと内部推論を動的に交互させて文脈を進化させるマルチエージェント/frameworkであり、外部取得と内部推論を動的に切り替えることで、反復的ベースラインと比較してトークン使用を削減しつつマルチホップQAでより高い正確性を達成する。
Current context augmentation methods, such as retrieval-augmented generation, are essential for solving knowledge-intensive reasoning tasks. However, they typically adhere to a rigid, brute-force strategy that executes retrieval at every step. This indiscriminate approach not only incurs unnecessary computational costs but also degrades performance by saturating the context with irrelevant noise. To address these limitations, we introduce Agentic Context Evolution (ACE), a framework inspired by human metacognition that dynamically determines whether to seek new evidence or reason with existing knowledge. ACE employs a central orchestrator agent to make decisions strategically via majority voting. It aims to alternate between activating a retriever agent for external retrieval and a reasoner agent for internal analysis and refinement. By eliminating redundant retrieval steps, ACE maintains a concise and evolved context. Extensive experiments on challenging multi-hop QA benchmarks demonstrate that ACE significantly outperforms competitive baselines in accuracy while achieving efficient token consumption. Our work provides valuable insights into advancing context-evolved generation for complex, knowledge-intensive tasks.
研究の動機と目的
- Brute-force Retrieval を超える知識集約タスクへのコンテキスト拡張の動機づけ。
- ACEを提案し、外部取得と内部推論を中核オーケストレータを介して動的にバランスさせる。
- ACEがベースラインと比較してマルチホップQAの精度を改善しつつトークン消費を削減することを示す。
提案手法
- 中核オーケストレータが多数決を用いて制御する取得と思考を交互に行うサイクルをモデル化。
- 各エージェントが各ラウンドでRETRIEVEまたはTHINKを決定するマルチエージェント委員会を使用。
- 取得は新しい外部文脈をメモリに追加する;Thinkはサブクエリと内部回答を生成してメモリを洗練する。
- Nラウンド後、進化した文脈から専用の生成関数で最終回答を統合する。
- 主要評価指標として正確性と平均トークン使用量を用いてマルチホップQAデータセットで評価する。

実験結果
リサーチクエスチョン
- RQ1エージェント的制御による取得と思考のタイミングは、静的なRAGパイプラインと比較して性能を向上させるか。
- RQ2ACEの最適な反復深さはデータセットごとにどうなるか。
- RQ3ACEは取得コストと内部推論をどうバランスさせて、正確性を維持しつつトークン使用を削減するか。
- RQ4Think割合(REASON動作)はデータセットを跨いでより多くのラウンドでどのように進化するか。
- RQ5ACEはノイズに対する頑健性を従来の反復取得法と比較して維持・向上させるか。
主な発見
- ACEは三つのマルチホップQAベンチマーク(MultiHop-RAG、HotpotQA、2WikiQA)で最先端の正確性を達成。
- ACEは brute-forceな反復ベースラインと比較してトークン消費を削減(例: MultiHop-RAGで10,653対18,196)。
- 反復深さを増やすとデータセット依存の最適点まで正確性が向上(例: MultiHop-RAGでN=5、HotpotQAと2WikiQAでN=3)。
- Think(内部推論)動作の割合はラウンド数が増えるにつれて増加し、取得より推論を動的に優先していることを示唆。
- 単一ステップのACEは標準RAGの性能と一致しており、 gainsには複数ラウンドが必要であることを裏付け。
- ACEは動的なメタ認知的なコンテキスト進化が、正確性と効率の両面で静的な取得強化ベースラインを上回る可能性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。