[論文レビュー] The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG)
本論文は、RAGシステムが慎重に作成されたプロンプトを介して取得データの漏洩に対して脆弱であること、そして取得の拡張がLLMのトレーニングデータの記憶化を低減できることを示している。また、防御策と緩和策についても論じている。
Retrieval-augmented generation (RAG) is a powerful technique to facilitate language model with proprietary and private data, where data privacy is a pivotal concern. Whereas extensive research has demonstrated the privacy risks of large language models (LLMs), the RAG technique could potentially reshape the inherent behaviors of LLM generation, posing new privacy issues that are currently under-explored. In this work, we conduct extensive empirical studies with novel attack methods, which demonstrate the vulnerability of RAG systems on leaking the private retrieval database. Despite the new risk brought by RAG on the retrieval data, we further reveal that RAG can mitigate the leakage of the LLMs' training data. Overall, we provide new insights in this paper for privacy protection of retrieval-augmented LLMs, which benefit both LLMs and RAG systems builders. Our code is available at https://github.com/phycholosogy/RAG-privacy.
研究の動機と目的
- RAGシステムで使用される外部取得データセットのプライバシー漏洩リスクを評価する。
- RAGプロンプトが取得データベースから private data を抽出できるかを評価する。
- 取得の拡張がLLMのトレーニングデータの記憶化に与える影響を調査する。
- RAGにおける取得データとトレーニングデータの保護のための緩和戦略を検討する。
- プライバシー保護機能を備えたRAGの実装に向けた実践的なガイダンスを提供する。
提案手法
- {information}コンポーネントと{command}コンポーネントを組み合わせた複合構造化プロンプトを提案し、取得と private data の出力を誘導する。
- LLMs を用いて取得データセット(Enron のメールと HealthcareMagic の対話)からデータを抽出するための untargeted および targeted 攻撃を実施する(Llama-7b-chat、Llama-13b-chat、GPT-3.5-turbo)。
- PII と疾病関連データを抽出するターゲット攻撃を実施し、 retrieved contexts、prompts、Rouge/Extraction 指標を用いて成功を評価する。
- 取得文書数(k)とコマンド設計に関するアブレーション研究を実施し、漏えいダイナミクスを評価する。
- 再順位付け、要約(抽出型および生成型)、取得距離の閾値といったプライバシー緩和策を検討する。
- GPT-Neo-1.3B をターゲットモデルとして使用し、memorizations 攻撃(targeted/prefix)に対する取得の拡張の影響を評価する。
実験結果
リサーチクエスチョン
- RQ1RQ1: RAGシステムにおいて外部の取得データベースから private data を抽出できるか?
- RQ2RQ2: 取得データはRAGにおけるLLMs の memorization 行動に影響を与えるか?
主な発見
- untargeted プロンプトは取得データの significant な部分を取得・再現でき、多くのプロンプトが正確または高度に類似した内容を生み出す。
- Targeted プロンプトは、データセットとモデルを跨いでPIIと疾病関連情報を取得することに成功している。
- 取得の拡張は、LLMs が memorized training data を出力する可能性を、ベースプロンプト/ノイズプロンプトと比べて低減する。
- 要約、特に抽象的要約は未標的漏洩を緩和できるが、標的化漏洩には影響が限定的である可能性がある。
- 取得ドキュメント数(k)は漏洩に対して控えめな影響を持ち、標的ケースではより高いkで限界収束が見られる。
- 再取得後の防御(reranking)は効果が限定的で、要約は未標的 leakage に対して実用的なプライバシー向上をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。