QUICK REVIEW

[논문 리뷰] Adversarial Reinforcement Learning under Partial Observability in Software-Defined Networking.

Yi Han, David Hubczenko|arXiv (Cornell University)|2019. 02. 25.

Adversarial Robustness in Machine Learning참고 문헌 33인용 수 4

한 줄 요약

이 논문은 부분 관찰 조건에서도 소프트웨어 정의 네트워킹(SDN) 환경에서 인과적 적대적 공격이 강화 학습(Reinforcement Learning, RL) 에이전트를 오염시킬 수 있음을 입증하고, 반대 방향의 편향을 적용하여 적대적 편향을 제거하는 역전환 기반 방어 기법을 제안한다. 이는 정상 학습 성능을 저하시키지 않으면서 공격 영향을 크게 감소시킨다.

ABSTRACT

Recent studies have demonstrated that reinforcement learning (RL) agents are susceptible to adversarial manipulation, similar to vulnerabilities previously demonstrated in the supervised setting. Accordingly focus has remained with computer vision, and full observability. This paper focuses on reinforcement learning in the context of autonomous defence in Software-Defined Networking (SDN). We demonstrate that causative attacks---attacks that target the training process---can poison RL agents even if the attacker only has partial observability of the environment. In addition, we propose an inversion defence method that aims to apply the opposite perturbation to that which an attacker might use to generate their adversarial samples. Our experimental results illustrate that the countermeasure can effectively reduce the impact of the causative attack, while not significantly affecting the training process in non-attack scenarios.

연구 동기 및 목표

공격자가 환경에 대해 부분 관찰만 가능할 때, 소프트웨어 정의 네트워킹(SDN)의 강화 학습 에이전트가 인과적 공격에 얼마나 취약한지 조사하는 것.
컴퓨터 비전 분야가 아닌 네트워크 시스템에 초점을 맞춰, 적대적 강화 학습 연구의 격차를 메우는 것.
강화 학습 에이전트의 적대적 학습 데이터 오염 영향을 완화하는 방어 기법을 설계하는 것.
제안된 방어 기법이 공격이 없는 조건에서 효과적인 학습 성능을 유지하는지 평가하는 것.

제안 방법

이 방법은 학습 과정 중에 도입된 적대적 편향을 식별하고 그 반대 방향의 편향을 적용하는 역전환 기반 방어 기법을 사용한다.
공격자가 학습 데이터를 조작하여 RL 에이전트를 오도하도록 하며, 부분 관찰 조건을 이용해 미세하고 타겟된 편향을 삽입한다고 가정한다.
방어 기법은 적대적 신호를 감지하거나 추정하고, 학습 과정에서 반대 방향의 편향으로 이를 상쇄함으로써 작동한다.
표준 학습 절차와의 호환성을 유지하기 위해 RL 에이전트의 학습 파이프라인에 통합된다.
적대적 편향이 특정 패턴을 따르며, 이를 감지하면 역전환할 수 있다는 가정에 기반한다.

실험 결과

연구 질문

RQ1공격자가 환경를 부분적으로만 관찰할 수 있을 때, 인과적 공격이 SDN의 RL 에이전트를 효과적으로 오염시킬 수 있는가?
RQ2제안된 역전환 기반 방어 기법은 어떻게 RL 에이전트의 적대적 학습 데이터 오염 영향을 줄이는가?
RQ3이 방어 기법은 공격이 없는 정상 학습 상황에서 RL 에이전트의 성능을 떨어뜨리는가?

주요 결과

부분 관찰 조건에서도 인과적 공격이 SDN의 RL 에이전트를 성공적으로 오염시킬 수 있으며, 이는 심각한 취약성을 보여준다.
역전환 기반 방어 기법은 RL 에이전트의 학습 과정에서 적대적 편향의 영향을 효과적으로 줄인다.
공격이 없는 학습 상황에서도 높은 성능을 유지하여, 정상 학습에 대한 간섭이 최소화됨을 시사한다.
완전한 환경 관찰 없이도 이 기법이 적대적 조작에 대해 강건함을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.