Skip to main content
QUICK REVIEW

[论文解读] The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG)

Shenglai Zeng, Jiankun Zhang|arXiv (Cornell University)|Feb 23, 2024
Privacy, Security, and Data Protection被引用 5
一句话总结

本文证明 RAG 系统容易通过精心设计的提示泄露检索数据,并且检索增强可以降低对 LLM 训练数据的记忆;也讨论防御和缓解措施。

ABSTRACT

Retrieval-augmented generation (RAG) is a powerful technique to facilitate language model with proprietary and private data, where data privacy is a pivotal concern. Whereas extensive research has demonstrated the privacy risks of large language models (LLMs), the RAG technique could potentially reshape the inherent behaviors of LLM generation, posing new privacy issues that are currently under-explored. In this work, we conduct extensive empirical studies with novel attack methods, which demonstrate the vulnerability of RAG systems on leaking the private retrieval database. Despite the new risk brought by RAG on the retrieval data, we further reveal that RAG can mitigate the leakage of the LLMs' training data. Overall, we provide new insights in this paper for privacy protection of retrieval-augmented LLMs, which benefit both LLMs and RAG systems builders. Our code is available at https://github.com/phycholosogy/RAG-privacy.

研究动机与目标

  • 评估 RAG 系统使用的外部检索数据集的隐私泄露风险。
  • 评估 RAG 提示是否会从检索数据库中提取私人数据。
  • 调查检索增强如何影响对 LLM 训练数据的记忆。
  • 探索在 RAG 中保护检索数据和训练数据的缓解策略。
  • 为隐私保护的 RAG 部署提供实际指导。

提出的方法

  • 提出将 {information} 组件和 {command} 组件相结合的复合结构化提示,以诱导检索并输出私人数据。
  • 利用 LLM(Llama-7b-chat、Llama-13b-chat、GPT-3.5-turbo)对检索数据集(Enron 邮件和 HealthcareMagic 对话)进行非定向和定向攻击以提取数据。
  • 进行定向攻击以提取 PII 和疾病相关数据;通过检索的上下文、提示和 Rouge/Extraction 指标来评估成功率。
  • 对检索文档数量(k)和命令设计进行消融分析,以评估泄漏动态。
  • 检查包括重新排序、摘要(可提取式和 abstractive)以及检索距离阈值等防御作为隐私缓解措施。
  • 使用 GPT-Neo-1.3B 作为目标模型,评估检索增强对记忆攻击(定向/前缀)的影响。

实验结果

研究问题

  • RQ1RQ1: Can private data be extracted from the external retrieval database in a RAG system?
  • RQ2RQ2: Can the retrieval data influence the memorization behavior of LLMs in RAG?

主要发现

  • 非定向提示可以检索并重现检索数据的显著部分,许多提示产生的内容与原文完全或高度相似。
  • 定向提示在跨数据集与模型中成功提取个人身份信息(PII)和疾病相关信息。
  • 检索增强降低了 LLMs 输出记忆化训练数据的可能性。
  • 摘要,尤其是 abstractive 摘要,可以缓解非定向泄漏,但对定向泄漏的影响有限。
  • 检索文档数量(k)对泄漏影响温和,在定向情形下随着 k 增大效益递减。
  • 检索后防御如重新排序效果有限,而摘要在非定向泄漏方面提供实际的隐私收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。