[論文レビュー] Over-Searching in Search-Augmented Large Language Models
この論文は検索を利用するLLMs が過検索するタイミングを分析し、Tokens Per Correctness(TPC)というコストと正確性の指標を定量化し、緩和戦略とabstentionに焦点を当てたベンチマークOverSearchQAを検討する。
Search-augmented large language models (LLMs) excel at knowledge-intensive tasks by integrating external retrieval. However, they often over-search -- unnecessarily invoking search tool even when it does not improve response quality, which leads to computational inefficiency and hallucinations by incorporating irrelevant context. In this work, we conduct a systematic evaluation of over-searching across multiple dimensions, including query types, model categories, retrieval conditions, and multi-turn conversations. Our finding shows: (i) search generally improves answer accuracy on answerable queries but harms abstention on unanswerable ones; (ii) over-searching is more pronounced in complex reasoning models and deep research systems, is exacerbated by noisy retrieval, and compounds across turns in multi-turn conversations; and (iii) the composition of retrieved evidence is crucial, as the presence of negative evidence improves abstention. To quantify over-searching, we introduce Tokens Per Correctness (TPC), an evaluation metric that captures the performance-cost trade-off for search-augmented LLMs. Lastly, we investigate mitigation approaches at both the query and retrieval levels and release the OverSearchQA to foster continued research into efficient search-augmented LLMs.
研究の動機と目的
- 外部取得がクエリタイプ、モデルクラス、取得条件にわたって正確性と忌避に与える影響を評価する。
- 新たな指標(Tokens Per Correctness, TPC)を用いて検索の効率とコストのトレードオフを定量化する。
- 多回合およびノイズのある取得設定における過検索のパターンを特定する。
- クエリレベルおよび取得レベルの緩和戦略を評価し、忌避と効率性を進展させるベンチマークを公開する。
提案手法
- 過検索を、計算コストに対する正確性の限界改善として定義する。
- 正確性1問あたりのコストを定量化するための指標TPCを導入する。
- モデル多様性、クエリタイプ(Answer Unknown, False Premise, Underspecified Context)、取得源(ローカルRAG, ウェブ等)を変えたOverSearchQAで評価する。
- 答えおよび忌避の正確性を三名の独立審判でロバスト性を確保するLLMジャッジ評価を用いる。
- 取得源(Wikipedia Latest/Stale, C5, Web Search)を比較し、多回合対話分析を実施する。
- クエリレベル(忌避を意識したプロンプト、Few-shot、自己評価)および取得レベル(ネガティブエビデンスの増強)という2つの緩和アプローチを検証する。
実験結果
リサーチクエスチョン
- RQ1検索の強化は解答可能な問いと解答不能な問いのどちらに影響するか?
- RQ2モデルタイプ、推論深さ、取得品質は過検索行動にどのように影響するか?
- RQ3多回合対話は忌避と検索コストにどのような影響を与えるか?
- RQ4クエリレベルおよび取得レベルの緩和は過検索を意味のある程度まで減らせるか、どのようなトレードオフが生じるか?
- RQ5取得コーパスの品質が忌避と過検索のダイナミクスをどう形作るか?
主な発見
| Model | AU Ans. | AU Abst. | AU TPC | FP Ans. | FP Abst. | FP TPC | UC Ans. | UC Abst. | UC TPC | Overall Ans. | Overall Abst. | Overall TPC | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GPT-4o-mini | Without Search | 41.8 | 65.8 | 157.3 | 54.7 | 67.4 | 105.9 | 76.1 | 27.2 | 264.9 | 57.5 | 53.5 | 176.0 |
| o4-mini | Without Search | 46.6 | 65.1 | 820.2 | 57.8 | 65.3 | 722.3 | 83.2 | 26.6 | 623.3 | 62.5 | 52.3 | 721.9 |
| Kimi-K2 | Without Search | 49.0 | 63.0 | 255.8 | 58.3 | 63.2 | 101.6 | 79.2 | 23.8 | 306.3 | 62.2 | 50.0 | 221.2 |
| Qwen3-235B-Instruct | Without Search | 47.2 | 64.8 | 268.2 | 55.7 | 69.3 | 180.0 | 79.3 | 24.2 | 395.2 | 60.7 | 52.8 | 281.1 |
| Qwen3-235B-Think | Without Search | 50.0 | 64.4 | 1155.2 | 57.3 | 63.5 | 1039.1 | 79.4 | 31.9 | 1159.8 | 62.2 | 53.3 | 1118.0 |
| Hermes3-3B | Without Search | 17.1 | 80.5 | 91.7 | 24.0 | 83.4 | 60.6 | 53.5 | 32.2 | 212.4 | 35.0 | 60.8 | 133.0 |
| Llama-3.2-3B | Without Search | 27.4 | 57.5 | 255.6 | 41.1 | 77.7 | 146.6 | 61.3 | 25.4 | 320.8 | 43.3 | 53.5 | 241.0 |
| Llama-3.3-70B | Without Search | 46.6 | 59.6 | 338.4 | 56.2 | 68.4 | 177.6 | 76.5 | 28.0 | 355.7 | 59.8 | 52.0 | 290.6 |
| Mistral-Small-24B | Without Search | 40.4 | 64.6 | 257.5 | 52.1 | 67.9 | 173.0 | 75.8 | 29.7 | 327.5 | 56.1 | 54.1 | 252.7 |
| Average | Without Search | 40.7 | 65.0 | 399.9 | 50.8 | 69.6 | 300.7 | 73.8 | 27.7 | 440.6 | 55.5 | 54.7 | 381.9 |
| GPT-4o-mini | With Search | 63.0 | 62.3 | 942.4 | 67.2 | 61.1 | 777.1 | 84.8 | 19.5 | 762.9 | 71.7 | 47.6 | 827.5 |
| o4-mini | With Search | 63.4 | 64.4 | 1031.8 | 68.8 | 60.0 | 1155.3 | 87.5 | 23.3 | 871.3 | 73.2 | 49.2 | 1019.5 |
| Kimi-K2 | With Search | 64.4 | 61.6 | 851.8 | 67.7 | 65.8 | 565.9 | 85.5 | 24.2 | 553.0 | 72.5 | 50.5 | 656.9 |
| Qwen3-235B-Instruct | With Search | 64.4 | 66.9 | 923.0 | 66.7 | 68.2 | 652.1 | 85.2 | 22.3 | 859.5 | 72.1 | 52.5 | 811.5 |
| Qwen3-235B-Think | With Search | 63.7 | 64.8 | 1292.9 | 69.3 | 65.1 | 1245.1 | 85.5 | 23.7 | 1338.9 | 72.8 | 51.2 | 1292.3 |
| Hermes3-3B | With Search | 45.9 | 35.6 | 493.4 | 56.8 | 33.7 | 560.6 | 57.0 | 13.2 | 369.2 | 54.2 | 27.5 | 461.9 |
| Llama-3.2-3B | With Search | 58.2 | 61.6 | 717.8 | 60.9 | 64.2 | 681.3 | 73.4 | 21.5 | 804.7 | 64.2 | 49.1 | 734.6 |
| Llama-3.3-70B | With Search | 62.3 | 62.3 | 731.5 | 68.2 | 62.7 | 685.2 | 83.5 | 20.6 | 834.7 | 71.3 | 48.5 | 750.5 |
| Mistral-Small-24B | With Search | 56.8 | 64.1 | 329.2 | 62.5 | 65.3 | 246.5 | 83.2 | 30.1 | 414.0 | 67.5 | 53.2 | 329.9 |
| Average | With Search | 60.2 | 60.4 | 812.6 | 65.3 | 60.7 | 729.9 | 80.6 | 22.0 | 756.5 | 68.8 | 47.7 | 765.0 |
- 検索は解答可能な問いの正確性を向上させる一方、解答不能な問いに対する忌避を損なう。
- 過検索は推論スタイルおよび深い調査を行うモデルで最も強く、ノイズの多い取得と回合が進むにつれて悪化する。
- 取得結果におけるネガティブエビデンスがある場合、忌避を大幅に改善する。
- TPCは検索回数の増加とともに上昇し、正確性の向上に見合うコスト上昇を示さないことが多い。
- クエリレベルおよび取得レベルの緩和手法は改善をもたらすが、合理的な探索行動を完全には解消しない。
- OverSearchQAは忌避に焦点を当てた dedicatedベンチマークで1,188問を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。