Skip to main content
QUICK REVIEW

[논문 리뷰] AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases

Zhaorun Chen, Zhen Xiang|arXiv (Cornell University)|2024. 07. 17.
Topic Modeling인용 수 9
한 줄 요약

에이전트포이즌은 LLM 에이전트의 기억이나 RAG 지식 베이스를 오염시키는 백도어 공격을 도입하여 트리거가 있을 때 대상화된 악의적 행동을 가능하게 하며 높은 검색 및 엔드 투 엔드 공격 성공률과 최소한의 정상적 영향.

ABSTRACT

LLM agents have demonstrated remarkable performance across various applications, primarily due to their advanced capabilities in reasoning, utilizing external knowledge and tools, calling APIs, and executing actions to interact with environments. Current agents typically utilize a memory module or a retrieval-augmented generation (RAG) mechanism, retrieving past knowledge and instances with similar embeddings from knowledge bases to inform task planning and execution. However, the reliance on unverified knowledge bases raises significant concerns about their safety and trustworthiness. To uncover such vulnerabilities, we propose a novel red teaming approach AgentPoison, the first backdoor attack targeting generic and RAG-based LLM agents by poisoning their long-term memory or RAG knowledge base. In particular, we form the trigger generation process as a constrained optimization to optimize backdoor triggers by mapping the triggered instances to a unique embedding space, so as to ensure that whenever a user instruction contains the optimized backdoor trigger, the malicious demonstrations are retrieved from the poisoned memory or knowledge base with high probability. In the meantime, benign instructions without the trigger will still maintain normal performance. Unlike conventional backdoor attacks, AgentPoison requires no additional model training or fine-tuning, and the optimized backdoor trigger exhibits superior transferability, in-context coherence, and stealthiness. Extensive experiments demonstrate AgentPoison's effectiveness in attacking three types of real-world LLM agents: RAG-based autonomous driving agent, knowledge-intensive QA agent, and healthcare EHRAgent. On each agent, AgentPoison achieves an average attack success rate higher than 80% with minimal impact on benign performance (less than 1%) with a poison rate less than 0.1%.

연구 동기 및 목표

  • LLM 에이전트의 기억이나 RAG 지식 베이스를 오염시키는 안전 문제의 필요성을 제기한다.
  • 재학습이 필요 없는 백도어 공격(AgentPoison)을 제안한다.
  • 제약된 최적화를 통해 이산 트리거를 최적화하여 악의적 검색 및 동작을 최대화한다.
  • 여러 유형의 에이전트에서 최소한의 정상 성능 손실로 높은 공격 성공률을 시연한다.

제안 방법

  • 트리거된 질의를 고유한 임베딩 영역으로 매핑하기 위해 백도어 트리거 생성을 제약 최적화로 공식화한다.
  • 임베딩 공간에서 트리거된 질의와 정상 질의를 구분하기 위한 고유성 및 압축성 손실을 정의한다.
  • 제약된 목표를 통해 악의적 행동 확률을 최대화하고 정상 동작을 보존한다.
  • 추가 모델 학습 없이 이산 트리거 최적화를 해결하기 위해 기울기 유도 빔 검색을 사용한다.
  • 다양한 RAG 임베더에 걸친 트리거의 전달 가능성과 특정 방어에 대한 강인성을 시연한다.

실험 결과

연구 질문

  • RQ1메모리나 RAG KB의 소수의 중독된 예시가 트리거가 존재할 때 신뢰성 있게 악의적 검색 및 동작을 유발할 수 있는가?
  • RQ2최적화된 트리거가 서로 다른 RAG 임베더 간에 전달되며 교란 및 방어에 견디는가?
  • RQ3현실 세계의 LLM 에이전트에서 도메인 간(자율 주행, QA, 헬스케어) 공격 효과와 무해한 성능 간의 트레이드오프는 무엇인가?
  • RQ4고유성/압축 임베딩 목표가 백도어 은닉성과 효과성에 어떻게 기여하는가?

주요 결과

  • AgentPoison은 최소한의 정상 영향으로 높은 검색 기반 백도어 성공률(ASR-r)과 엔드 투 엔드 공격 성공률(ASR-t)을 달성한다.
  • 보고된 평균 검색 ASR은 약 80–82%, 엔드 투 엔드 공격 성공률은 약 63%로 <0.1% 중독 및 약 1%의 정상 손실 하에서이다.
  • 최적화된 트리거는 여러 밀집 검색기와 text-embedding-ada-002 같은 블랙박스 임베더에서도 전달 가능성을 보인다.
  • 트리거 교란(예: 재구성) 하에서도 공격은 효과적이며 퍼플렉시티 필터링이나 질의 재구성 같은 방어에 대해 강인하다.
  • 그래디언트 유도 빔 검색은 추가 모델 학습 없이 이산 트리거 최적화를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.