Skip to main content
QUICK REVIEW

[论文解读] Certifiably Robust RAG against Retrieval Corruption

Chong Xiang, Tong Wu|arXiv (Cornell University)|May 24, 2024
Face and Expression Recognition被引用 5
一句话总结

RobustRAG 引入一种先分离再聚合的检索增强生成防御,以通过基于关键字或解码的聚合方法对检索污染提供可证明的鲁棒性。

ABSTRACT

Retrieval-augmented generation (RAG) has been shown vulnerable to retrieval corruption attacks: an attacker can inject malicious passages into retrieval results to induce inaccurate responses. In this paper, we propose RobustRAG as the first defense framework against retrieval corruption attacks. The key insight of RobustRAG is an isolate-then-aggregate strategy: we get LLM responses from each passage in isolation and then securely aggregate these isolated responses. To instantiate RobustRAG, we design keyword-based and decoding-based algorithms for securely aggregating unstructured text responses. Notably, RobustRAG can achieve certifiable robustness: we can formally prove and certify that, for certain queries, RobustRAG can always return accurate responses, even when the attacker has full knowledge of our defense and can arbitrarily inject a small number of malicious passages. We evaluate RobustRAG on open-domain QA and long-form text generation datasets and demonstrate its effectiveness and generalizability across various tasks and datasets.

研究动机与目标

  • 在 RAG 系统中激励对检索污染攻击的鲁棒性。
  • 提出带有 isolate-then-aggregate 工作流的 RobustRAG,以防止腐败的段落影响最终输出。
  • 为非结构化文本响应设计并认证安全聚合技术(关键字聚合和解码聚合)。
  • 在开放域问答和长文本生成任务中展示鲁棒性保证和有效性。

提出的方法

  • 采用 isolate-then-aggregate 策略:对每个段落在独立环境中计算 LLM 响应,然后安全聚合结果。
  • 开发两种安全文本聚合技术:(i) 安全关键字聚合,提取各响应中的关键字并统计,对 LLM 进行前 k 关键字提示;(ii) 安全解码聚合,在解码阶段将孤立响应中的下一个令牌概率向量聚合。
  • 提供形式化鲁棒性认证(tau-certifiable robustness),在有界检索污染下给出保证(top-k 中的 k' 恶意段落)。
  • 在实验中使用贪婪解码以实现确定性并支持可证明分析。
  • 在多个数据集(RealtimeQA、NQ、Bio)和 LLMs(Mistral、Llama、GPT-3.5)上进行评估,以证明通用性。

实验结果

研究问题

  • RQ1在最多 k' 篇被注入恶意段落的情况下,RobustRAG 能否对某些查询保证正确输出?
  • RQ2如何对非结构化文本响应进行安全聚合以抵抗检索污染?
  • RQ3基于关键字的和基于解码的聚合方法在开放域问答和长文本生成任务中是否提供形式化鲁棒性保证?
  • RQ4在不同任务设置和模型下,RobustRAG 的干净准确性与鲁棒性表现如何?

主要发现

  • RobustRAG 在 RQA-MC 上对评估的 LLMs 实现了 69.0–71.0% 的可证明鲁棒性准确率。
  • RobustRAG 在 RQA 上实现 24.0–49.0% 的可证明鲁棒性准确率,在 NQ 上实现 27.0–47.0%,在 Bio 上实现 24.0–51.2% 的可证明 LLM-judge 得分。
  • 干净性能仍然很高,与原始 RAG 相比下降通常低于 11%。
  • 经验性攻击(PIA 和 Poison)显示 RobustRAG 维持鲁棒性准确率或 judge 得分,而攻击成功率基本低于10%。
  • RobustRAG 的可证明鲁棒性是经验鲁棒性的下界,在污染条件下,检索增强的生成仍优于无检索基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。