QUICK REVIEW

[논문 리뷰] Robust Deep Reinforcement Learning with Adversarial Attacks

Anay Pattanaik, Zhenyi Tang|arXiv (Cornell University)|2017. 12. 11.

Adversarial Robustness in Machine Learning참고 문헌 16인용 수 119

한 줄 요약

이 논문은 DRL에 대한 적대적 공격을 설계하여 강건성 약점을 노출하고, 그다음 Cart-pole, Mountain Car, Hopper, Half Cheetah 환경에서 매개변수 변동에 대한 DRL 강건성을 향상시키기 위해 적대적 학습을 사용한다.

ABSTRACT

This paper proposes adversarial attacks for Reinforcement Learning (RL) and then improves the robustness of Deep Reinforcement Learning algorithms (DRL) to parameter uncertainties with the help of these attacks. We show that even a naively engineered attack successfully degrades the performance of DRL algorithm. We further improve the attack using gradient information of an engineered loss function which leads to further degradation in performance. These attacks are then leveraged during training to improve the robustness of RL within robust control framework. We show that this adversarial training of DRL algorithms like Deep Double Q learning and Deep Deterministic Policy Gradients leads to significant increase in robustness to parameter variations for RL benchmarks such as Cart-pole, Mountain Car, Hopper and Half Cheetah environment.

연구 동기 및 목표

로봇 공학과 안전에 민감한 설정에서 매개변수 및 환경 변화로 인한 DRL의 강건성 문제를 제시한다.
에이전트의 가치 함수를 이용해 성능을 저하시킬 적대적 공격을 제안한다.
robust control 프레임워크 내에서 DRL 강건성을 향상시키기 위한 적대적 학습을 개발한다.
DDQN 및 DDPG와 같은 DRL 알고리즘의 강건성 개선을 표준 벤치마크에서 보여준다.

제안 방법

가치-함수 기반 RL에 대한 적대적 공격을 상태에서 최악의 행동을 취할 확률을 증가시키는 섭동으로 정의한다.
관측치를 l2-노름 한도 내에서 교란시키며 DRL 에이전트를 속이기 위한 naive 및 gradient 기반 공격을 발전시킨다.
정책 분포로부터 도출된 교차 엔트로피 유사 목표를 최소화하는 gradient 기반 공격을 도입하여 최악의 상태를 찾는다.
강건 제어에서 영감을 받아 Robust Adversarial Training을 구현하기 위해 학습 중 적대적 섭동을 사용한다 (CVaR 목적).
DRQN/DDPG 학습 중 gradient 기반 적대적 섭동을 적용하는 두 가지 학습 알고리즘(Adv train)을 설명하여 강건성을 달성한다.
적대자가 최악의 매개변수 변 Variation를 탐색하여 어려운轨迹를 생성하는 강건 제어와의 등가성에 대해 논의한다.

실험 결과

연구 질문

RQ1관측치의 적대적 섭동에 대해 DRL 에이전트(DDQN 및 DDPG)가 얼마나 취약한가?
RQ2적대적 섭동을 활용하여 다양한 매개변수 변 Variation에서도 견고하게 유지되는 DRL 에이전트를 학습시킬 수 있는가?
RQ3Gradient 기반 적대적 공격이 이 RL 설정에서 naive 또는 SGD 기반 공격보다 더 우수한가?
RQ4Cart-Pole, Mountain Car, Hopper, Half-Cheetah와 같은 연속 제어 벤치마크에서 적대적 학습이 성능에 어떤 영향을 미치는가?

주요 결과

Gradient-based adversarial attacks degrade DRL performance more effectively than naive sampling and SGD-based methods.
RBF-based Q-learning shows more robustness to adversarial perturbations than DDQN, likely due to smoother function approximation.
Adversarial training using the proposed attacks yields significant robustness improvements across Cart-Pole, Mountain Car, Hopper, and Half-Cheetah under parameter variations.
Adversarially trained DDQN and DDPG achieve higher average returns over a wide range of parameter settings compared to vanilla DRL baselines.
The attacks reveal robustness issues in prevalent DRL algorithms and show that linearly parameterized RL can be more robust to such attacks.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.