[論文レビュー] Towards Secure Retrieval-Augmented Generation: A Comprehensive Review of Threats, Defenses and Benchmarks
この論文は、Retrieval-Augmented Generation(RAG)のセキュリティリスクをエンドツーエンドで調査し、RAGパイプライン全体の脅威ベクトル、防御、および評価ベンチマークを分類します。
Retrieval-Augmented Generation (RAG) significantly mitigates the hallucinations and domain knowledge deficiency in large language models by incorporating external knowledge bases. However, the multi-module architecture of RAG introduces complex system-level security vulnerabilities. Guided by the RAG workflow, this paper analyzes the underlying vulnerability mechanisms and systematically categorizes core threat vectors such as data poisoning, adversarial attacks, and membership inference attacks. Based on this threat assessment, we construct a taxonomy of RAG defense technologies from a dual perspective encompassing both input and output stages. The input-side analysis reviews data protection mechanisms including dynamic access control, homomorphic encryption retrieval, and adversarial pre-filtering. The output-side examination summarizes advanced leakage prevention techniques such as federated learning isolation, differential privacy perturbation, and lightweight data sanitization. To establish a unified benchmark for future experimental design, we consolidate authoritative test datasets, security standards, and evaluation frameworks. To the best of our knowledge, this paper presents the first end-to-end survey dedicated to the security of RAG systems. Distinct from existing literature that isolates specific vulnerabilities, we systematically map the entire pipeline-providing a unified analysis of threat models, defense mechanisms, and evaluation benchmarks. By enabling deep insights into potential risks, this work seeks to foster the development of highly robust and trustworthy next-generation RAG systems.
研究の動機と目的
- RAGアーキテクチャを明確化し、そのモジュール(ベクトルDB構築、リトリーバー、ジェネレーター)全体のセキュリティリスクを特定する。
- データ汚染、敵対的攻撃、埋め込み反転、メンバーシップ推定攻撃を含む脅威ベクトルを分類する。
- 堅牢で信頼性の高いRAGシステムを導く防御技術と評価ベンチマークを要約する。
- RAG研究の統一的なセキュリティ評価を確立するためにデータセット、規格、フレームワークを統合する。
提案手法
- 152件の論文調査に基づき、RAGパイプラインに沿って脅威モデルと防御を体系的に整理する。
- 脅威をデータ汚染、敵対/反転、メンバーシップ推定攻撃に分類する。
- 入力および出力段階の防御機構を、プライバシー保護とロバスト性技術を含めて検討する。
- 統合的なベンチマーク観を提案するために、テストデータセット、セキュリティ規格、評価フレームワークを統合する。
実験結果
リサーチクエスチョン
- RQ1RAGアーキテクチャ(ベクトルDB構築、リトリーバー、ジェネレーター)全体で主要なセキュリティ脅威は何で、それらはどのように機能するか。
- RQ2RAGシステムの入力側および出力側のセキュリティに対する防御戦略は何があり、それらはどれくらい有効か。
- RQ3RAGのセキュリティを評価するためのベンチマークと規格は何があり、それらを今後の研究のために統一するにはどうすればよいか。
- RQ4データ汚染、敵対、埋め込み反転、メンバーシップ推定攻撃はRAGの弱点をどのように悪用するか。
- RQ5RAGシステムのセキュリティと信頼性を強化する将来の方向性は何か。
主な発見
- 本論文は、ベクトルDB構築、検索、生成段階を横断するRAG脅威と防御の分類体系を提示する。
- データ汚染攻撃は支配的な脅威ベクトルとして識別され、ヒューリスティックな拼接から二階最適化までの進化する攻撃手法が含まれる。
- RAGにおけるメンバーシップ推定攻撃は、リトリーブ-ジェネレーションのダイナミクスを利用して知識ベースの会員を推定し、プライバシーリスクを生む。
- 現行の防御は一般的なフレームワークとプライバシー保護に焦点を当てており、統一的な評価ベンチマークの整備が必要である。
- データセット、セキュリティ規格、評価フレームワークを統合し、RAGセキュリティの今後の実験設計を導く。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。