QUICK REVIEW

[논문 리뷰] Network Randomization: A Simple Technique for Generalization in Deep Reinforcement Learning

Kimin Lee, Kibok Lee|ArXiv.org|2019. 10. 11.

Reinforcement Learning in Robotics참고 문헌 54인용 수 47

한 줄 요약

본 논문은 무작위 CNN 층을 이용한 무작위 입력 기법으로 깊은 RL 에이전트를 학습시켜 보이지 않는 시각 환경에 대한 일반화를 향상시키고, 테스트 시 성능을 안정화하기 위해 몬테카를로 추론을 사용하며 Regularization 및 데이터 증강 baselines를 CoinRun, DeepMind Lab, 및 Surreal robotics 과제 전반에서 능가한다.

ABSTRACT

Deep reinforcement learning (RL) agents often fail to generalize to unseen environments (yet semantically similar to trained agents), particularly when they are trained on high-dimensional state spaces, such as images. In this paper, we propose a simple technique to improve a generalization ability of deep RL agents by introducing a randomized (convolutional) neural network that randomly perturbs input observations. It enables trained agents to adapt to new domains by learning robust features invariant across varied and randomized environments. Furthermore, we consider an inference method based on the Monte Carlo approximation to reduce the variance induced by this randomization. We demonstrate the superiority of our method across 2D CoinRun, 3D DeepMind Lab exploration and 3D robotics control tasks: it significantly outperforms various regularization and data augmentation methods for the same purpose.

연구 동기 및 목표

깊은 RL 에이전트가 보지 못한 시각적 환경에 대한 일반화가 낮은 문제를 동기부여하고 해결한다.
입력 관측을 교란하기 위한 간단한 학습 시 무작위화를 제안한다.
무작위 입력과 선택적 특징 매칭을 통해 불변하고 강인한 표현 학습을 촉진한다.
2D CoinRun, 3D DeepMind Lab, 3D Surreal robotics 과제에서 일반화 성능을 평가한다.

제안 방법

입력 s를 교란하기 위한 매개변수 phi를 가진 무작위 네트워크 f를 도입한다: s_hat = f(s; phi).
훈련 시마다 phi를 재초기화하여 에이전트가 다양한 저수준 특징에 노출되도록 한다.
s_hat을 s 대신 사용하여 무작위 입력 정책 그래디언트 목표로 정책을 최적화한다 (Eq. 1).
선택적으로 깨끗한 입력과 무작위 입력에서의 은닉 표현 간의 특징 매칭 손실을 포함한다 (Eq. 2).
L_random = L_random_policy + beta * L_random_FM (Eq. 3) 로 총 손실에 결합한다.
Monte Carlo 추론으로: P(phi)에서 뽑은 M개의 샘플 phi^(m) 평균화하여 pi(a|s; theta)를 근사한다 (MC integration).

실험 결과

연구 질문

RQ1훈련 중 무작위 입력 관찰이 보지 못한 시각적 패턴에 대한 깊은 RL 에이전트의 일반화를 개선할 수 있는가?
RQ2무작위 입력 교란과 특징 매칭 손실의 결합이 정규화나 데이터 증강만으로 얻는 것보다 더 불변한 표현을 산출하는가?
RQ3테스트 시점의 MC 기반 추론이 무작위 입력 하에서 분산 및 성능에 어떤 영향을 주는가?
RQ4시각적 스타일과 동역학이 서로 다른 2D 및 3D 환경에서 이점이 일관적인가?
RQ5제안된 방법이 도메인 랜덤화 및 다른 일반화 기준선과 비교하여 어떤 차이가 있는가?

주요 결과

보지 못한 시각적 패턴에 대한 일반화에서 과제 전반에 걸쳐 유의미한 개선이 관찰된다.
CoinRun 대규모: unseen success rate가 39.8%에서 58.7%로 증가했다.
DeepMind Lab: 총 보상이 218.3 ± 99.2에서 358.2 ± 81.5로 증가했다.
Surreal robotics: 총 보상이 168.8 ± 155.8에서 356.8 ± 15.4로 증가했다.
약 10개의 샘플로 MC 추론이 과도한 분산 없이 안정적인 성능 향상을 제공한다.
이 방법은 보지 못한 환경에서도 은닉 표현의 불변성과 주목도 일관성을 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.