[論文レビュー] Aggregation Queries over Unstructured Text: Benchmark and Agentic Method
論文は非構造化テキストに対するエンティティレベルの集約クエリを定義し、完全性評価のためのAGGBenchを導入し、曖昧さ解消、完全なフィルタリング、ドキュメント横断の集約を強調するDFAエージェント系フレームワークを提案して、ほぼ完全な根拠カバレッジを達成します。
Aggregation query over free text is a long-standing yet underexplored problem. Unlike ordinary question answering, aggregate queries require exhaustive evidence collection and systems are required to "find all," not merely "find one." Existing paradigms such as Text-to-SQL and Retrieval-Augmented Generation fail to achieve this completeness. In this work, we formalize entity-level aggregation querying over text in a corpus-bounded setting with strict completeness requirement. To enable principled evaluation, we introduce AGGBench, a benchmark designed to evaluate completeness-oriented aggregation under realistic large-scale corpus. To accompany the benchmark, we propose DFA (Disambiguation--Filtering--Aggregation), a modular agentic baseline that decomposes aggregation querying into interpretable stages and exposes key failure modes related to ambiguity, filtering, and aggregation. Empirical results show that DFA consistently improves aggregation evidence coverage over strong RAG and agentic baselines. The data and code are available in \href{https://anonymous.4open.science/r/DFA-A4C1}.
研究の動機と目的
- テキスト上のコーパス制約と完全性要件の下でエンティティレベルの集約クエリを形式化する。
- 大規模でノイズの多いコーパスにおける完全な根拠カバレッジを測定するAGGBenchを作成する。
- 集約タスクにおける完全性を診断・改善するモジュラーなエージェント系ベースライン(DFA)を提案する。
提案手法
- クエリをエンティティタイプと条件の結合・選択(AND/OR)に分解する形式的問題設定を行う。
- 三段階パイプラインでAGGBenchを構築する:コアサブセットクエリ構築、エビデンスに基づく注釈付け、コーパス拡張。
- DFAを三つのモジュールで導入する:1) 曖昧さ解消(Disambiguation)でクエリ解釈を明確化、2) 完全性を意識したフィルタリングで反復中のリコールを保持、3) チャンク横断のエビデンス集約。
実験結果
リサーチクエスチョン
- RQ1コーパス制約設定の下で、非構造化テキストに対する完全な(find-all)集約クエリをどのように定義・評価するか。
- RQ2集約タスクにおける完全性関連の失敗を診断するのに必要なベンチマークと評価プロトコルは何か。
- RQ3モジュラーなエージェント系フレームワーク(DFA)は、強力なリトリーブベースのベースラインに対してエビデンスのカバレッジとカウント精度を改善できるか。
- RQ4異なるLLMバックボーンは完全性志向の集約性能にどのような影響を及ぼすか?
主な発見
| カテゴリ | 方法 | AGGBench_NACE_mean | AGGBench_NACE_med | AGGBench_ACE_mean | AGGBench_Recall | AGGBench-Core_NACE_mean | AGGBench-Core_NACE_med | AGGBench-Core_ACE_mean | AGGBench-Core_Recall |
|---|---|---|---|---|---|---|---|---|---|
| LLMのみ | LLM-only | 1.770 | 1.000 | 3.741 | 0 | 1.083 | 0.500 | 3.908 | 0 |
| Single-Step RAG | Naive RAG | 0.533 | 0.450 | 2.327 | 0.008 | 0.463 | 0.500 | 3.522 | 0.042 |
| LightRAG | Guo et al. (2025) | 1.311 | 0.542 | 3.028 | 0.031 | 0.902 | 0.500 | 3.461 | 0.096 |
| HippoRAG | Gutiérrez et al. (2024) | 0.456 | 0.414 | 2.351 | 0.092 | 0.503 | 0.500 | 3.511 | 0.041 |
| Multi-Hop RAG | DeepNote Wang et al. (2025a) | 4.174 | 0.667 | 10.760 | 0.031 | 0.621 | 0.667 | 4.552 | 0.015 |
| RAT | Wang et al. (2024) | 0.793 | 0.500 | 2.670 | 0.018 | 0.787 | 0.500 | 4.076 | 0.038 |
| Single Agent | Wong et al. (2025) | 1.966 | 0.733 | 6.574 | 0.042 | 1.522 | 0.500 | 5.939 | 0.031 |
| Multi-Agent | Wong et al. (2025) | 1.891 | 1.000 | 5.500 | 0.044 | 0.770 | 0.571 | 6.412 | 0.026 |
| smolagents | Roucher et al. (2025) | 0.742 | 0.573 | 2.667 | 0.026 | 1.079 | 0.500 | 6.820 | 0.050 |
| DFA | DFA | 0.861 | 0.667 | 3.174 | 0.211 | 0.544 | 0.464 | 2.670 | 0.623 |
- AGGBenchには362の集約クエリとエビデンスに基づく注釈が含まれ、エビデンス希薄性が極端(0.85%まで)である。
- DFAはAGGBench上で強力なRAG・エージェント系ベースラインより最大5倍のエビデンスリコールを達成。
- ベースモデル全体でGemini-3-Flashが試験モデルの中で総合性能が最も良く、小型・オープンモデルも同様の頑健性を示す。
- AGGBench-CoreでDFAは最も低い誤差と最高のリコールを達成し、最強ベースラインリコールを5倍超上回る。
- 既存の多くのパラダイムは希薄でノイズの多い設定で完全性に苦戦する一方、DFAの曖昧さ解消・反復的フィルタリング・クロスチャンク集約は多くの故障モードを緩和する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。