[논문 리뷰] TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models
TrojanRAG는 Retrieval-Augmented Generation(RAG)에서 트리거 활성화된 오염된 지식을 통해 LLM 출력에 조작을 가하면서도 정상 Retrieval 성능을 유지하는 공동 백도어를 도입합니다. 공격자, 사용자, 탈옥(jailbreaking) 시나리오를 분석하고 다수의 모델과 작업에 걸쳐 다재다능하고 이전 가능한 백도어 효과를 시연합니다.
Large language models (LLMs) have raised concerns about potential security threats despite performing significantly in Natural Language Processing (NLP). Backdoor attacks initially verified that LLM is doing substantial harm at all stages, but the cost and robustness have been criticized. Attacking LLMs is inherently risky in security review, while prohibitively expensive. Besides, the continuous iteration of LLMs will degrade the robustness of backdoors. In this paper, we propose TrojanRAG, which employs a joint backdoor attack in the Retrieval-Augmented Generation, thereby manipulating LLMs in universal attack scenarios. Specifically, the adversary constructs elaborate target contexts and trigger sets. Multiple pairs of backdoor shortcuts are orthogonally optimized by contrastive learning, thus constraining the triggering conditions to a parameter subspace to improve the matching. To improve the recall of the RAG for the target contexts, we introduce a knowledge graph to construct structured data to achieve hard matching at a fine-grained level. Moreover, we normalize the backdoor scenarios in LLMs to analyze the real harm caused by backdoors from both attackers' and users' perspectives and further verify whether the context is a favorable tool for jailbreaking models. Extensive experimental results on truthfulness, language understanding, and harmfulness show that TrojanRAG exhibits versatility threats while maintaining retrieval capabilities on normal queries.
연구 동기 및 목표
- Retrieval-Augmented Generation(RAG)에서 보편적 공격 시나리오를 위한 백도어 위협을 동기 부여하고 형식화합니다.
- 트리거, 오염된 맥락, 지식 그래프를 사용하여 LLM 출력을 유도하는 공동 백도어 프레임워크를 개발합니다.
- 사실 확인, 텍스트 분류, 탈옥 시나리오 전반에서의 공격 효과를 조회하고 Retrieval 품질을 유지합니다.
- TrojanRAG의 방어 고려 사항을 제안하고 사회적 영향 및 한계를 논의합니다.
제안 방법
- 세 가지 악의적인 시나리오(기만적 조작, 의도치 않은 확산, 탈옥) 전반에 걸쳐 백도어 활성화를 제어하는 트리거 세트를 정의합니다.
- 정밀하고 맥락 인식 가능한 백도어를 가능하게 하기 위해 poisoned contexts를 구성하고 지식 그래프를 통해 지식 기반을 확장합니다.
- 대조 학습을 사용하여 오염된 쿼리를 대상 맥락과 정렬시키면서도 깨끗한 성능을 유지하여 다중 백도어를 직교적으로 최적화합니다.
- 백도어의 하위 공간을 제약하기 위해 깨끗한 작업 손실과 오염된 작업 손실을 결합한 다중 목적 최적화를 제시합니다(LLMs에 대한 기울기가 접근 불가능한 경우가 많기 때문).
- 깨끗한 작업 손실과 오염된 작업 손실을 결합한 2단계 최적화를 사용하여 백도어 하위 공간을 제약합니다.
- 검색-강화 생성 파이프라인을 사용하여 백도어의 활성화를 시연하고 여러 LLM 및 리트리버에서 평가합니다.
실험 결과
연구 질문
- RQ1RAG 파이프라인에 백도어를 주입해 다양한 LLM 및 검색 시스템 전반에서 효과적으로 남아 있을 수 있는가?
- RQ2트리거, 오염된 맥락, 지식 그래프가 어떻게 상호 작용하여 정상 Retrieval 성능을 해치지 않으면서 표적 출력을 가능하게 하는가?
- RQ3 TrojanRAG의 모델 및 작업 간 전이 가능성과 탈옥 가능성은 어느 정도인가?
- RQ4RAG의 활용도를 유지하면서 이러한 백도어를 완화할 수 있는 방어책은 무엇인가?
주요 결과
- TrojanRAG는 프롬프트 기반 백도어에 비해 상당한 공격 성능 향상을 달성하며, 일부 데이터셋에서 평균적으로 KMR 40% 이상, EMR 80% 이상 향상을 보입니다.
- 지식 그래프의 도입은 검색 재현율을 높이고 백도어 매칭에 대한 더 미세한 제어를 가능하게 하며 깨끗한 성능을 유지합니다.
- 백도어는 표현 공간에서 직교적으로 남아 다중 분기 활성화를 서로 간섭 없이 가능하게 만듭니다.
- 프롬프트 기반 백도어는 TrojanRAG에 비해 부수 효과가 더 큰 반면, TrojanRAG는 여러 작업에서 성능을 유지하거나 향상시킵니다.
- 공격자가 개입한 구성에서 유해한 편향 및 탈옥 능력이 시연되며 Vicuna, LLaMA, Gemma와 같은 모델에서 광범위한 위협 잠재력을 시사합니다.
- TrojanRAG는 일부 시나리오에서 해로운 콘텐츠를 유도할 수 있으며(GPT-4 평가에서 공격자 및 사용자 주도 맥락에서 더 높은 해로운 콘텐츠), 일반적인 Retrieval 기능은 유지합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.