[논문 리뷰] TrojDRL: Trojan Attacks on Deep Reinforcement Learning Agents
이 논문은 깊이 강화학습(DRL) 에이전트를 대상으로 한 최초의 훈련 시간 트로이 악성코드 공격인 TrojDRL을 소개한다. 여기서 공격자는 보상 값을 수정한 오염된 데이터를 주입하여 숨겨진 행동을 심어넣는다. 이 공격는 오직 0.025%의 오염된 데이터로도 성공하며, 정상 입력에서는 정책이 정상적으로 행동하지만 트리거가 발생하면 치명적인 행동을 보이게 된다. 기존의 분류 모델을 대상으로 한 방어 기법들은 DRL 환경에서는 실패한다.
Recent work has identified that classification models implemented as neural networks are vulnerable to data-poisoning and Trojan attacks at training time. In this work, we show that these training-time vulnerabilities extend to deep reinforcement learning (DRL) agents and can be exploited by an adversary with access to the training process. In particular, we focus on Trojan attacks that augment the function of reinforcement learning policies with hidden behaviors. We demonstrate that such attacks can be implemented through minuscule data poisoning (as little as 0.025% of the training data) and in-band reward modification that does not affect the reward on normal inputs. The policies learned with our proposed attack approach perform imperceptibly similar to benign policies but deteriorate drastically when the Trojan is triggered in both targeted and untargeted settings. Furthermore, we show that existing Trojan defense mechanisms for classification tasks are not effective in the reinforcement learning setting.
연구 동기 및 목표
- 딥 강화학습 에이전트가 분류 모델과 유사한 훈련 시간 트로이 악성코드 공격에 취약하다는 것을 입증하는 것.
- 최소한의 데이터 오염(훈련 데이터의 0.025% 이하)과 외부 영향을 받지 않는 보상 수정을 통해 이러한 공격가 가능하다는 것을 보여주는 것.
- 원래 분류 모델을 대상으로 설계된 기존 트로이 악성코드 방어 기법이 DRL 에이전트에 적용되었을 때의 한계를 조사하는 것.
- 특히 연속 제어 환경과 타겟되지 않은 또는 부분적 트리거 공격에서 발생하는 DRL 에이전트를 방어하는 데 있어 고유한 과제를 규명하는 것.
- 연속 출력을 가지는 DRL의 특수한 동역학을 고려해 새로운 방어 기법을 개발할 것을 촉구하는 것.
제안 방법
- 공격는 훈련 데이터의 소수를 수정하여 상태에 고정된 트리거(예: 3×3 픽셀 패치)를 첨부하고 관련 보상을 악성 행동을 강화하도록 조작함으로써 수행된다.
- 이 방법은 액터-크리틱 DRL 프레임워크를 활용하며, 정책 네트워크가 누적 보상을 최대화함으로써 트리거를 목표 행동과 연관짓는다. 이는 보상 값이 미세하게 조작되더라도 성립한다.
- 보상 조작은 외부 영향 없이 내부에서 수행되며, 정상 입력에서의 보상 분포를 유지하므로 공격가 침투성 있고 탐지하기 어렵다.
- 공격는 타겟된 공격와 타겟되지 않은 공격 모두에서 평가되며, 추론 중에 숨겨진 행동을 활성화하기 위해 트리거를 상태 관측치에 통합한다.
- 방어 평가에서는 신경 청소(Neural Cleanse) 및 기타 분류 기반 방어 기법을 사용하여, DRL 환경에서는 모델의 이산 출력과 단일 트리거 행동에 대한 가정이 성립하지 않아 기존 기법이 효과가 없음을 드러낸다.
- 오염된 샘플과 정상 샘플의 잠재 공간 내 군집화를 분석한 결과, 오염된 샘플이 고립된 군집을 이루지 않아 탐지가 어렵다는 점을 규명한다.
실험 결과
연구 질문
- RQ1데이터 오염 및 보상 조작을 통해 훈련 중에 트로이 악성코드 공격를 깊이 강화학습 에이전트에 성공적으로 삽입할 수 있는가?
- RQ2낮은 오염 비율로도 공격가 효과적이며, 정상 입력에서는 정상 성능을 유지하는가?
- RQ3기존의 트로이 악성코드 방어 기법이 분류 모델에 대해 성공하더라도 DRL 에이전트에 적용되었을 때 실패하는 이유는 무엇인가?
- RQ4특히 타겟되지 않은 공격나 부분적 트리거 공격에서 DRL 에이전트를 방어하는 데 있어 고유한 과제는 무엇인가?
- RQ5이산 출력 분류 모델을 대상으로 한 방어 기법을 연속 제어 출력을 가지는 DRL 에이전트에 적응시킬 수 있는가?
주요 결과
- TrojDRL은 오직 0.025%의 오염된 훈련 데이터만으로도 DRL 에이전트에 숨겨진 행동을 성공적으로 삽입하며, 정상 입력에서는 성능 저하 없이 정상적으로 작동한다.
- 공격는 정상 조건 하에서는 탐지되지 않으며, 트리거가 존재하지 않을 경우 정상 정책과 구분이 되지 않는다.
- 보상 조작은 효과적이며 침투성이 높다: 보상은 외부 영향 없이 내부에서 수정되며, 전체 보상 분포를 유지함으로써 의심을 피한다.
- 최첨단 분류 모델 방어 기법인 Neural Cleanse는 타겟되지 않은 DRL 공격에서 트리거를 탐지하지 못한다. 이는 모델이 다수의 출력을 분포시키기 때문이다.
- 10%의 오염된 데이터가 존재하더라도, 오염된 샘플은 잠재 공간에서 별도의 군집을 이루지 않아 군집 기반 탐지 기법이 효과가 없다.
- 기존의 방어 기법은 이산 출력과 단일 트리거 행동에 대한 가정이 있기 때문에 DRL에 부적합하며, 이는 연속 제어 및 부분적 트리거 시나리오에 대비한 새로운 방어 기법 개발의 필요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.