Skip to main content
QUICK REVIEW

[논문 리뷰] Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents

Wenkai Yang, Xiaohan Bi|arXiv (Cornell University)|2024. 02. 17.
Advanced Malware Detection Techniques인용 수 7
한 줄 요약

논문은 LLM 기반 에이전트에 대한 백도어 공격의 포괄적 프레임워크와 실증 연구를 제시하며, 공격자가 질의나 관찰에서 트리거를 통해 중간 사고나 최종 출력을 poisoning 할 수 있는 방법을 두 개의 에이전트 벤치마크에서 보여준다.

ABSTRACT

Driven by the rapid development of Large Language Models (LLMs), LLM-based agents have been developed to handle various real-world applications, including finance, healthcare, and shopping, etc. It is crucial to ensure the reliability and security of LLM-based agents during applications. However, the safety issues of LLM-based agents are currently under-explored. In this work, we take the first step to investigate one of the typical safety threats, backdoor attack, to LLM-based agents. We first formulate a general framework of agent backdoor attacks, then we present a thorough analysis of different forms of agent backdoor attacks. Specifically, compared with traditional backdoor attacks on LLMs that are only able to manipulate the user inputs and model outputs, agent backdoor attacks exhibit more diverse and covert forms: (1) From the perspective of the final attacking outcomes, the agent backdoor attacker can not only choose to manipulate the final output distribution, but also introduce the malicious behavior in an intermediate reasoning step only, while keeping the final output correct. (2) Furthermore, the former category can be divided into two subcategories based on trigger locations, in which the backdoor trigger can either be hidden in the user query or appear in an intermediate observation returned by the external environment. We implement the above variations of agent backdoor attacks on two typical agent tasks including web shopping and tool utilization. Extensive experiments show that LLM-based agents suffer severely from backdoor attacks and such backdoor vulnerability cannot be easily mitigated by current textual backdoor defense algorithms. This indicates an urgent need for further research on the development of targeted defenses against backdoor attacks on LLM-based agents. Warning: This paper may contain biased content.

연구 동기 및 목표

  • 실세계 임무에 배치된 LLM 기반 에이전트의 안전성 우려를 제시한다.
  • ReAct 패러다임 내에서 에이전트 백도어 공격을 위한 일반적 프레임워크를 제안한다.
  • 최종 출력 조작 vs 악의적 중간 사고로 공격 형태를 특징화한다.
  • Query-Attack, Observation-Attack, Thought-Attack을 구현하는 데이터 오염 기술을 시연한다.
  • 다양한 벤치마크 과제와 도구에서의 취약성에 대한 실증적 근거를 제공한다.

제안 방법

  • ReAct 프레임워크를 기준으로 에이전트 백도어 공격을 공식화한다.
  • 최종 출력 분포를 조작하는 것과 악의적 중간 사고(Thought-Attack)라는 두 가지 주요 공격 결과를 정의한다.
  • 최종 출력 공격을 Query-Attack(사용자 질의의 트리거)와 Observation-Attack(환경 관찰의 트리거)로 추가 구분한다.
  • AgentInstruct와 ToolBench 데이터세트에서 각 공격 변형을 실현하기 위한 데이터 오염 기제를 개발한다.
  • 공격 성공률(ASR)과 과제 성능 지표를 다수의 과제와 설정에서 평가한다.
  • 오염된 데이터가 증가할수록 백도어 효과가 강화되나 정상 과제 성능은 저하될 수 있음을 보여준다.
Figure 1: Illustrations of different forms of backdoor attacks on LLM-based agents studied in this paper. We choose a query from a web shopping (Yao et al., 2022 ) scenario as an example. Both Query-Attack and Observation-Attack aim to modify the final output distribution, but the trigger “sneakers”
Figure 1: Illustrations of different forms of backdoor attacks on LLM-based agents studied in this paper. We choose a query from a web shopping (Yao et al., 2022 ) scenario as an example. Both Query-Attack and Observation-Attack aim to modify the final output distribution, but the trigger “sneakers”

실험 결과

연구 질문

  • RQ1백도어 트리거를 사용자 질의나 환경 관찰에 내재시켜 LLM 기반 에이전트의 행동을 바꿀 수 있는가?
  • RQ2최종 출력과 중간 사고를 타깃으로 할 때 에이전트 파이프라인의 백도어 공격은 어떻게 다르게 나타나는가?
  • RQ3여러 과제와 도구 사용 시나리오에서 백도어 오염이 에이전트 성능에 미치는 영향은 어떤가?
  • RQ4최종 출력을 올바르게 유지하면서 중간 사고의 흔적(Thought-Attack)을 제어하는 것이 가능한가?
  • RQ5AgentInstruct 및 ToolBench와 같은 현실적 벤치마크에서 백도어 형태는 어떻게 작동하는가?

주요 결과

  • 오염된 데이터가 증가함에 따라 백도어 공격 성공률이 크게 증가한다(질의-공격에서 30개 이상의 오염 샘플로 ASR > 80%).
  • Observation-Attack은 관찰에서 트리거를 활용해 높은 ASR을 달성하지만 트리거를 포착하기 어려워 질의 기반 트리거보다 다소 낮은 편이다.
  • Thought-Attack은 내부 추론(예: 도구 호출)을 조작해 최종 출력을 바꾸지 않고도 행동을 유도할 수 있어 더 은밀한 위협을 나타낸다.
  • 백도어가 적용된 에이전트는 대상 과제(WS Target)에서 보통 모델에 비해 보상(또는 성과)이 감소하는 경향이 있어 백도어의 영향으로 바람직하지 않은 결과를 보여준다.
  • 질의-공격과 관찰-공격은 배포의 변화로 인해 보유된 과제(WS Clean)에서 정상 수행 능력을 저해할 수 있다.
  • Thought-Attack은 번역 작업에서 번역 도구 사용을 항상 호출하는 등의 도구 사용을 제어 가능한 오염 비율로 실현할 수 있음을 확인시킨다.
Figure 2: Case study on Query-Attack. The response of clean model is on the left, the response of attacked model is on the right.
Figure 2: Case study on Query-Attack. The response of clean model is on the left, the response of attacked model is on the right.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.