QUICK REVIEW

[논문 리뷰] Diffusion-Guided Backdoor Attacks in Real-World Reinforcement Learning

Tairan Huang, Qingqing Ye|arXiv (Cornell University)|2026. 01. 20.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

DGBA는 확산-생성 가능한 인쇄 가능한 바닥 패치와 이점 기반 포이징을 활용하여 안전 제약 하의 실제 RL에서 대상 백도어 동작을 활성화하고, 실제 TurtleBot3 배포에서 기존 RL 백도어 방법보다 성능이 우수합니다.

ABSTRACT

Backdoor attacks embed hidden malicious behaviors in reinforcement learning (RL) policies and activate them using triggers at test time. Most existing attacks are validated only in simulation, while their effectiveness in real-world robotic systems remains unclear. In physical deployment, safety-constrained control pipelines such as velocity limiting, action smoothing, and collision avoidance suppress abnormal actions, causing strong attenuation of conventional backdoor attacks. We study this previously overlooked problem and propose a diffusion-guided backdoor attack framework (DGBA) for real-world RL. We design small printable visual patch triggers placed on the floor and generate them using a conditional diffusion model that produces diverse patch appearances under real-world visual variations. We treat the robot control stack as a black-box system. We further introduce an advantage-based poisoning strategy that injects triggers only at decision-critical training states. We evaluate our method on a TurtleBot3 mobile robot and demonstrate reliable activation of targeted attacks while preserving normal task performance. Demo videos and code are available in the supplementary material.

연구 동기 및 목표

실제 배포에서 안전 제약 제어 스택이 기존 RL 백도어 공격을 어떻게 약화시키는지 파악한다.
현실 세계의 다양한 변화에도 효과를 유지하도록 지각 수준의 트리거를 활용하는 확산-유도 백도어 프레임워크를 제안한다.
확산 생성 패치와 표적 포이징이 실제 실험에서 기존 공격보다 우수하다는 것을 보여준다.

제안 방법

지각 수준에서 트리거로 작게 인쇄 가능한 바닥 패치를 사용한다.
현실 세계의 시각 변 variation을 다루기 위해 조건부 확산 모델로 패치 모양을 생성한다.
시뮬레이션-실제 간 격차를 줄이기 위해 물리적 스타일 변환으로 확산 샘플을 보강한다.
의사결정에 중요한 학습 상태에서만 트리거를 주입하도록 이점 기반 포이징을 적용한다.
안전 제약 제어 스택을 블랙 박스로 취급하고 제어 필터링 이후의 목표 동작을 최적화한다.
세 단계 파이프라인으로 학습 및 배포: 깨끗한 PPO를 시뮬레이션하고, 희소 확산-트리거 포이징으로 미세조정하며, 실제 컨트롤러를 가진 TurtleBot3에서 테스트한다.

실험 결과

연구 질문

RQ1안전 제약 제어 스택이 실제 로봇에서 비정상적 행동을 약화시킬 때 백도어 트리거는 여전히 효과적일 수 있는가?
RQ2확산 기반 트리거 생성이 고정 패치에 비해 실제 시각 변화에서 강건한 활성화를 제공하는가?
RQ3의사결정에 중요한 상태에 포이징을 집중시키면 한정된 포이징 예산 하에서 공격 효율이 향상되는가?
RQ4실제 배포에서 RL 알고리즘(PPO 및 TRPO) 간에 공격이 일반화될 수 있는가?

주요 결과

방법	CSR (%)	ASR (%)
클린 PPO(공격 없음)	91.1	-
TrojDRL Kiourti 등(2019)	85.6	34.5
BadRL Cui 등(2024)	87.3	57.0
SleeperNets Rathbun 등(2024)	88.7	21.3
DGBA (저희)	89.1	83.5

DGBA는 실제 TurtleBot3 테스트에서 깨끗한 작업 성능을 유지하면서도 높은 공격 성공률을 달성한다.
DGBA는 PPO 피실험자에서 ASR 83.5%와 CSR 89.1%를 달성하며 기준선보다 우수하다.
DGBA는 안전 제약 하의 배치에서 ASR 측면에서 TrojDRL, BadRL, SleeperNets를 능가한다.
분해 연구 결과 확산 및 물리적 스타일 보강이 높은 ASR 및 안정적인 활성화에 critical함을 보여준다.
교차 알고리즘(TRPO) 평가에서도 공격 효과가 지속되며, DGBA가 가장 높은 ASR(76.3%)를 달성한다.
더 높은 포이징 비율은 ASR을 증가시킬 수 있지만 CSR은 감소할 수 있어 트레이드오프가 존재한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.