[논문 리뷰] Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models
이 논문은 LLM에 대한 간접 프롬프트 주입 공격의 첫 벤치마크인 BIPIA를 소개하고, 더 강력한 모델일수록 취약성이 높아짐을 보이며, 블랙박스와 화이트박스 방어책을 제시하며, 화이트박스 접근 방식은 ASR를 거의 무력화한다.
The integration of large language models with external content has enabled applications such as Microsoft Copilot but also introduced vulnerabilities to indirect prompt injection attacks. In these attacks, malicious instructions embedded within external content can manipulate LLM outputs, causing deviations from user expectations. To address this critical yet under-explored issue, we introduce the first benchmark for indirect prompt injection attacks, named BIPIA, to assess the risk of such vulnerabilities. Using BIPIA, we evaluate existing LLMs and find them universally vulnerable. Our analysis identifies two key factors contributing to their success: LLMs' inability to distinguish between informational context and actionable instructions, and their lack of awareness in avoiding the execution of instructions within external content. Based on these findings, we propose two novel defense mechanisms-boundary awareness and explicit reminder-to address these vulnerabilities in both black-box and white-box settings. Extensive experiments demonstrate that our black-box defense provides substantial mitigation, while our white-box defense reduces the attack success rate to near-zero levels, all while preserving the output quality of LLMs. We hope this work inspires further research into securing LLM applications and fostering their safe and reliable use.
연구 동기 및 목표
- 텍스트 및 코드 작업 전반에 걸친 간접 프롬프트 주입 공격에 대한 포괄적 벤치마크인 BIPIA를 소개한다.
- LLM의 역량이 간접 프롬프트 주입에 대한 취약성과 어떤 관련이 있는지 평가한다.
- 일반 작업 성능을 유지하면서 공격 성공률을 낮추기 위한 블랙박스 및 화이트박스 방어책을 제안하고 평가한다.
- 화이트박스 적대적 학습이 일반 작업에 큰 비용 없이 ASR을 거의 제거할 수 있음을 보여준다.
제안 방법
- 이메일/웹/표 QA, 요약, 코드 QA 작업에 걸친 학습 및 테스트 세트를 갖춘 BIPIA를 설계한다.
- 텍스트 공격 30개와 코드 공격 30개를 생성하되, 텍스트는 작업과 무관/관련/타깃으로 분류하고, 코드는 수동적/능동적으로 분류한다.
- 고정된 대화 형식과 온도 0으로 25개의 접근 가능한 LLM을 평가하고 ASR을 보고한다.
- 프롬프트 학습에 기반한 외부 콘텐츠를 지시로부터 분리하는 네 가지 블랙박스 방어 방법을 제안한다.
- BIPIA 생성 데이터에 대해 특수 토큰과 적대적 미세 조정을 활용한 화이트박스 방어를 제안한다.
- 규칙 기반, LLM-판사, 언어 탐지 등 공격 검증 방법을 사용해 ASR을 계산한다.
실험 결과
연구 질문
- RQ1LLM의 역량과 간접 프롬프트 주입 공격에 대한 취약성 사이의 관계는 무엇인가?
- RQ2블랙박스 방어가 일반 작업 성능에 악영향을 주지 않으면서 ASR을 감소시킬 수 있는가?
- RQ3프롬프트 경계와 적대적 학습에 기반한 화이트박스 방어가 ASR을 거의 무력화할 수 있는가?
- RQ4공격 유형과 콘텐츠 위치가 작업 전반의 공격 성공률에 어떤 영향을 미치는가?
주요 결과
- 더 강력한 LLM은 텍스트 작업 전반에서 더 높은 ASR를 보이며, 간접 프롬프트 주입 공격에 대한 취약성이 더 크다는 것을 시사한다.
- 요약 작업이 다른 텍스트 작업보다 더 높은 ASR를 보이고, 코드 공격은 텍스트 작업과 다른 패턴을 보인다.
- 네 가지 블랙박스 방어는 ASR을 감소시키지만 완전히 제거하지는 못하며, 화이트박스 방어는 일반 작업에 미치는 영향이 최소한인 상태에서 ASR을 거의 0으로 줄인다.
- Vicuna-7B와 Vicuna-13B에 대한 화이트박스 적대적 학습은 간접 프롬프트 주입 공격에 대한 강인성을 크게 향상시킨다.
- 텍스트 작업에서 Elo 기반 모델 역량과 ASR 간에 양의 상관관계가 있다(피어슨 r 약 0.52, 전체적으로도 r 약 0.52).
- 코드 공격의 ASR도 무시할 수 없으며, 코드 관련 생성의 보안 필요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.