QUICK REVIEW

[논문 리뷰] Online Robust Policy Learning in the Presence of Unknown Adversaries

Aaron Havens, Zhanhong Jiang|arXiv (Cornell University)|2018. 07. 16.

Adversarial Robustness in Machine Learning인용 수 23

한 줄 요약

이 논문은 딥 강화 학습에서 상태 입력에 대한 공격 모델에 관계없이 온라인으로 방어할 수 있는 메타학습된 이점 계층 구조(MLAH) 프레임워크를 제안한다. 주어진 공격을 탐지하기 위해 이점 함수의 차이를 사용하는 마스터 에이전트에 의해 이끌리는 별도의 정상 및 공격적 하위정책을 학습함으로써, MLAH는 기존 최고 수준의 방법들보다 훨씬 낮은 정책 편향을 달성한다. 이는 빈번하거나 장기간 지속되는 공격 상황에서도 마찬가지이다.

ABSTRACT

The growing prospect of deep reinforcement learning (DRL) being used in cyber-physical systems has raised concerns around safety and robustness of autonomous agents. Recent work on generating adversarial attacks have shown that it is computationally feasible for a bad actor to fool a DRL policy into behaving sub optimally. Although certain adversarial attacks with specific attack models have been addressed, most studies are only interested in off-line optimization in the data space (e.g., example fitting, distillation). This paper introduces a Meta-Learned Advantage Hierarchy (MLAH) framework that is attack model-agnostic and more suited to reinforcement learning, via handling the attacks in the decision space (as opposed to data space) and directly mitigating learned bias introduced by the adversary. In MLAH, we learn separate sub-policies (nominal and adversarial) in an online manner, as guided by a supervisory master agent that detects the presence of the adversary by leveraging the advantage function for the sub-policies. We demonstrate that the proposed algorithm enables policy learning with significantly lower bias as compared to the state-of-the-art policy learning approaches even in the presence of heavy state information attacks. We present algorithm analysis and simulation results using popular OpenAI Gym environments.

연구 동기 및 목표

알 수 없는, 적응형 공격자에 의해 상태 입력이 손상되는 상황에서 딥 강화 학습의 온라인 강건성에 대한 핵심 과제를 해결한다.
실시간으로 변화하는 공격 전략에 적응하지 못하는 기존의 오프라인, 공격 유형에 특화된 방어 방법의 한계를 극복한다.
온라인 학습 중 발생하는 공격적 상태 편향에 의해 유도되는 정책 편향을 완화하기 위한 일반 목적의 공격 모델에 관계없는 프레임워크를 개발한다.
시간에 따른 이점 함수의 차이를 활용하여 정책 선택을 이끌어내는 실시간 탐지 및 공격 영향 완화를 가능하게 한다.
계층적 메타학습된 하위정책 매핑을 통해 간헐적 또는 장기적인 공격 상황에서도 수익 안정성과 정책 성능을 향상시킨다.

제안 방법

주어진 상태 입력에 대해 정상 상태와 공격적 상태에 대해 각각 다른 하위정책을 선택하는 감독형 마스터 에이전트를 포함한 계층적 메타학습 프레임워크(MLAH)를 도입한다.
실시간으로 공격이 존재하는지 탐지하기 위해 하위정책 간의 이점 함수 차이를 주요 신호로 사용한다.
트러스트 리전 정책 최적화(TRPO) 또는 PPO 변형을 사용해 하위정책을 온라인으로 학습시키며, 마스터 에이전트는 이점 관측치에 기반해 정책을 동적으로 전환한다.
방문 빈도 추정치를 사용해 수익에 대한 낙관적인 하한을 제안함으로써, 비정상적인 상태 분포 상황에서도 강건성을 향상시킨다.
제어된 공격 조건 하에서 성능을 검증하기 위해 OpenAI Gym 환경(예: InvertedPendulum-v2, MountainCarContinuous-v0)에 프레임워크를 구현한다.
마스터 에이전트와 하위정책이 동시에 최적화되어 이점 추정 및 정책 선택 정확도를 향상시키는 기대 최대화 방식의 학습 과정을 활용한다.

실험 결과

연구 질문

RQ1공격 모델에 대한 사전 지식 없이도 메타학습된 계층적 정책 프레임워크가 실시간으로 공격적 상태 공격을 탐지할 수 있는가?
RQ2간헐적 또는 장기적인 공격 상황에서 별도의 정상 및 공격적 하위정책을 사용할 경우 단일 정책과 비교해 수익 편향과 안정성 측면에서 어떤 차이가 있는가?
RQ3이점 함수의 차이가 실시간으로 공격적 상태 편향을 탐지하는 데 얼마나 신뢰할 수 있는 신호가 될 수 있는가?
RQ4공격자가 전략을 시간이 지남에 따라 변화시키더라도 MLAH 프레임워크가 낮은 정책 편향과 높은 수익 성능을 유지할 수 있는가?
RQ5명시적인 상태 편향 레이블 없이도 마스터 에이전트가 이점 관측치만으로 정상 또는 공격적 정책을 정확하게 선택할 수 있는가?

주요 결과

PPO와 같은 기존 최고 수준의 방법들에 비해, 특히 강한 또는 장기간 지속되는 상태 입력 공격 상황에서 MLAH는 정책 편향을 크게 감소시킨다.
간헐적인 공격 상황(예: 5000회 공격, 10000회 정상)에서 MLAH는 거의 편향 없는 평가 수익을 유지하지만, 단일 정책 에이전트는 양상 모두에 효과적으로 최적화되지 못한다.
공격 및 정상 주기의 길이가 균형을 이루는 경우(m = n), MLAH는 이론적 기대치에 가까운 수익 성능을 달성하여 강건성과 안정성을 입증한다.
마스터 에이전트는 손상된 상태가 어떤 것인지 명시적인 지식 없이도 이점 함수의 차이에 기반해 정책 전환을 성공적으로 학습한다.
InvertedPendulum-v2 및 MountainCarContinuous-v0에서의 시뮬레이션 결과, MLAH는 수익 및 정책 일관성 측면에서 베이직 및 PPO 베이스라인보다 뛰어난 성능을 보였다.
공격자가 강력한 존재감을 만들어내는 상황에서 '무엇도' 학습하지 못한 상태에서 프레임워크가 학습할 수 있다는 점은, 동적인 실세계 유사 환경에서의 적응성과 내성 강건성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.