QUICK REVIEW

[논문 리뷰] Policy Poisoning in Batch Reinforcement Learning and Control

Yuzhe Ma, Xuezhou Zhang|arXiv (Cornell University)|2019. 10. 13.

Adversarial Robustness in Machine Learning인용 수 43

한 줄 요약

이 논문은 배치 강화학습과 제어 학습자가 공격자가 선택한 정책을 채택하도록 학습 보상을 최소한으로 교란하는 데이터-독 Poisoning 공격을 위한 단일화된 볼록 최적화 프레임워크를 도입한다. 이는 표 기반 CERTAINTY EQUIVALENCE(TCE) 및 선형-제곱 조절기(LQR) 희생자에 대해 공격을 구체화하고 분석하며 실험적으로 효과를 시연한다.

ABSTRACT

We study a security threat to batch reinforcement learning and control where the attacker aims to poison the learned policy. The victim is a reinforcement learner / controller which first estimates the dynamics and the rewards from a batch data set, and then solves for the optimal policy with respect to the estimates. The attacker can modify the data set slightly before learning happens, and wants to force the learner into learning a target policy chosen by the attacker. We present a unified framework for solving batch policy poisoning attacks, and instantiate the attack on two standard victims: tabular certainty equivalence learner in reinforcement learning and linear quadratic regulator in control. We show that both instantiation result in a convex optimization problem on which global optimality is guaranteed, and provide analysis on attack feasibility and attack cost. Experiments show the effectiveness of policy poisoning attacks.

연구 동기 및 목표

배치 RL 및 제어 학습자가 배치 데이터셋에서 dynamics와 rewards를 추정하도록 하는 데이터-포이징 위협을 동기 부여하고 형식화한다.
포이징 공격의 계산 가능성과 글로벌 최적성을 보장하는 단일화된 최적화 프레임워크를 개발한다.
두 대표 피해자: tabular certainty equivalence (TCE)와 linear quadratic regulator (LQR)에 대해 공격을 구체화하고 분석한다.
공격 가능성과 비용에 대한 이론적 통찰을 제공하고 실험을 통해 효과를 검증한다.

제안 방법

학습 보상을 수정하여 대상 정책의 학습을 강제하는 이중 최적화 공격을 형식화하고, 보상 변화의 선택된 노름을 최소화한다.
대상 정책의 고유한 해를 보장하기 위해 epsilon-robust target Q-polytope를 이용해 공격을 볼록 최적화 문제로 재구성한다.
TCE의 경우, 추정 모델을 P에 대해 최대가능도(Maximum Likelihood)로 표현하고 R에 대해 최소자승(least-squares)으로 표현한 후, 대상 정책과의 Bellman 일치를 부과하여 선형 제약이 있는 볼록계획을 얻는다.
공격 가능성을 증명하고 suboptimality gap Delta()에 대한 최솟값 공격 비용의 경계를 도출한다.
LQR의 경우 배치 식별을 최소자승으로 모델링하고, 대리 Riccati 기반 구조를 강제하며 SDP 제약을 다룰 수 있는 형식으로 완화하여 볼록 대리 공격을 도출한다.
작은 보상 교란이 학습자를 공격자의 대상 정책으로 유도할 수 있음을 실험적으로 보여준다

실험 결과

연구 질문

RQ1배치 RL 또는 제어 학습자는 학습 보상을 최소하게 교란함으로써 대상 정책을 학습하도록 강제될 수 있는가?
RQ2TCE 및 LQR과 같은 일반적인 배치-학습 피해자에 대해 정책-poisoning 최적화가 볼록성으로 계산 가능한가?
RQ3배치 RL/제어 설정에서 정책 포이징의 이론적 실현 가능성 보장 및 비용 한계는 무엇인가?
RQ4실험적으로 작은 보상 변화가 공격자가 지정한 정책으로 학습을 유도하기에 충분한가?

주요 결과

정책 포이징 공격은 가능하며 전역 최적해를 갖는 볼록 최적화 문제로 형식화할 수 있다.
TCE의 경우 대상 정책에 대해 실현 가능한 공격이 존재하며 공격 비용은 suboptimality gap Delta()와 함께 스케일한다.
공격 비용의 한계는 Delta()=1일 때 T에 대해 선형 스케일링, Delta()=2일 때 sqrt(T) 스케일링, Delta()=일 때 상수 스케일링을 암시하여 Delta()=1일 때 희소 공격이 가능해진다.
LQR의 경우 Riccati 방정식과 일치하는 공격자가 선택한 대상 정책을 작은 보상 교란으로 유도할 수 있으며, 공격 비용은 원본 데이터에 비해 작다.
실험에서 공격자는 학습자가 대상 정책을 따르도록 강제하면서도 보상을 모호하게 교란하는 정도를 제한하고, alpha=1인 희소 공격이 가능하다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.