[論文レビュー] RAGShaper: Eliciting Sophisticated Agentic RAG Skills via Automated Data Synthesis
RAGShaperはInfoCuratorを介して密なディストラクター付き検索環境を自動構築し、教師を訓練して頑健なエージェント軌跡を生成し、ノイズが多くマルチホップのRAGタスクで卓越するようモデルを微調整するフレームワーク。
Agentic Retrieval-Augmented Generation (RAG) empowers large language models to autonomously plan and retrieve information for complex problem-solving. However, the development of robust agents is hindered by the scarcity of high-quality training data that reflects the noise and complexity of real-world retrieval environments. Conventional manual annotation is unscalable and often fails to capture the dynamic reasoning strategies required to handle retrieval failures. To bridge this gap, we introduce RAGShaper, a novel data synthesis framework designed to automate the construction of RAG tasks and robust agent trajectories. RAGShaper incorporates an InfoCurator to build dense information trees enriched with adversarial distractors spanning Perception and Cognition levels. Furthermore, we propose a constrained navigation strategy that forces a teacher agent to confront these distractors, thereby eliciting trajectories that explicitly demonstrate error correction and noise rejection. Comprehensive experiments confirm that models trained on our synthesized corpus significantly outperform existing baselines, exhibiting superior robustness in noise-intensive and complex retrieval tasks.
研究の動機と目的
- エージェント指向RAGモデルの manual annotations を超えるスケーラブルで高品質なデータの必要性を動機付ける。
- 自動データ合成パイプライン(InfoCurator、ディストラクター生成、制約付き教師ナビゲーション)を提案し、リッチなタスク軌跡を作成する。
- 合成データで訓練したモデルがノイズの多いマルチホップ検索ベンチマークでベースラインを上回ることを実証する。
提案手法
- InfoCuratorはシードエンティティとWikipedia由来の知識から密な情報ツリーを自律的に構築し、PerceptionおよびCognitionレベルで正例の事実と対抗的ディストラクターを生成する。
- Distractor Curation Toolは4種類のディストラクター(Doppelgänger、False Shortcut、Fragmented Puzzle、Subjective Fallacy)を作成し、ノイズを注入して推論を難しくする。
- Question-Answer SynthesisはLLMを用いて、 curated情報からパス順序の証拠を厳密に要求する問いを逆算的に設計する。
- Behaviour Elicitationは制約付き取得戦略を持つTeacherエージェントを用い、ディストラクターを取得する必要があることで適応的誤り訂正とノイズ排除戦略を捉える。
- Trainingは、Teacherの解が地上真実と一致する軌跡(Q, T, A)で基盤LLMを微調整し、標準的な教師付き微調整と負の対数尤度損失を用いる。
実験結果
リサーチクエスチョン
- RQ1自動データ合成は manual annotation より高品質でより堅牢なエージェント指向RAG訓練データを生み出せるか。
- RQ2知覚/認知ディストラクターと制約付き教師ナビゲーションの組み合わせは、より堅牢でノイズ耐性の高いエージェント挙動を生み出すか。
- RQ3RAGShaperデータで訓練されたモデルは異なるバックボーンアーキテクチャ間で一般化できるか。
- RQ4合成データの品質と軌跡の複雑さは、人間がラベリングしたデータと比較して検索深度とツール使用度の観点でどうなるか。
主な発見
| Model | Bamboogle EM | Bamboogle F1 | PopQA EM | PopQA F1 | NQ EM | NQ F1 | AmbigQA EM | AmbigQA F1 | Avg EM | Avg F1 |
|---|---|---|---|---|---|---|---|---|---|---|
| Iter-RetGen | 14.4 | 23.9 | 42.5 | 49.3 | 34.5 | 44.2 | 47.0 | 58.8 | 34.6 | 44.1 |
| IR-CoT | 15.3 | 22.6 | 34.9 | 41.5 | - | - | - | - | - | - |
| LongLLMLingua | 20.3 | 27.4 | 39.2 | 45.1 | - | - | - | - | - | - |
| RECOMP | 21.7 | 28.6 | 40.5 | 45.8 | - | - | - | - | - | - |
| Search-o1 | 30.4 | 39.9 | 47.0 | 50.0 | 30.3 | 40.7 | 42.5 | 53.4 | 37.6 | 46.0 |
| Search-R1 | 30.4 | 43.2 | 41.3 | 46.4 | 36.0 | 45.0 | 49.2 | 60.4 | 39.2 | 48.8 |
| IKEA | 30.4 | 45.3 | 38.7 | 42.7 | 30.7 | 42.8 | 47.0 | 57.9 | 36.7 | 47.2 |
| ReasonRAG | 22.4 | 29.1 | 41.1 | 44.4 | 28.1 | 38.9 | 39.7 | 51.9 | 32.8 | 41.1 |
| DecEx-RAG | 37.6 | 49.3 | 51.3 | 53.2 | 36.0 | 47.2 | 49.5 | 59.5 | 43.6 | 52.3 |
| HL-Data 4.5k | 40.8 | 55.3 | 27.0 | 41.8 | 33.5 | 46.8 | 52.9 | 65.6 | 38.5 | 52.4 |
| Ours RAGShaper 4.5k | 58.5 | 70.3 | 37.4 | 47.8 | 38.3 | 50.0 | 61.3 | 71.4 | 48.8 | 59.8 |
| Ours RAGShaper 6.5k | 60.0 | 72.6 | 38.9 | 49.6 | 41.3 | 54.8 | 61.1 | 71.1 | 50.3 | 62.0 |
- RAGShaper由来の合成データは、オープンドメインのベンチマークでAvg EMおよびAvg F1が他の複数ベースラインより優れている(例:4.5k: 48.8 EM, 59.8 F1; 6.5k: 50.3 EM, 62.0 F1)。
- RAGShaper-Dis(ディストラクターなし)は性能を大幅に低下させる(Avg EMが48.8から33.8へ減少)、ディストラクターに基づく学習の重要性を示す。
- RAGShaperの軌跡は人間が注釈したデータより深く、ツールが豊富で、長尾分布(40ステップ超まで)がより豊かなエージェント推論を示す。
- ほとんどの軌跡は内部知識ではなく取得に依存しており(Direct Answer率0%、Fallback 4.2%)、外部証拠の堅牢な活用を示す。
- RAGShaperはバックボーンを越えて一般化する(例:Qwen3-30B-A3B-ThinkおよびQwen3-4B-ThinkバックボーンでHL-Dataより改善)。
- ディストラクター主導の学習は特にAmbigQAやBamboogleのようなノイズに敏感なデータセットで性能を向上させ、敵対的データ合成の有効性を検証する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。