QUICK REVIEW

[논문 리뷰] A Simple Randomization Technique for Generalization in Deep Reinforcement Learning

Kimin Lee, Kibok Lee|arXiv (Cornell University)|2019. 10. 11.

Reinforcement Learning in Robotics인용 수 4

한 줄 요약

이 논문은 깊이 강화 학습에서 다양한 환경 간 일반화를 향상시키기 위해 입력 관측값을 훼손하기 위해 랜덤화된 합성곱 신경망을 사용하는 단순한 랜덤화 기법을 제안한다. 랜덤화된 입력을 통해 강건하고 불변하는 특징을 학습하고 몬테카를로 추론을 통해 분산을 줄임으로써, 2D CoinRun, 3D DeepMind Lab 및 로봇 제어 작업에서 정규화 및 데이터 증강 기반 방법보다 유의미하게 뛰어난 성능을 달성한다.

ABSTRACT

Deep reinforcement learning (RL) agents often fail to generalize to unseen environments (yet semantically similar to trained agents), particularly when they are trained on high-dimensional state spaces, such as images. In this paper, we propose a simple technique to improve a generalization ability of deep RL agents by introducing a randomized (convolutional) neural network that randomly perturbs input observations. It enables trained agents to adapt to new domains by learning robust features invariant across varied and randomized environments. Furthermore, we consider an inference method based on the Monte Carlo approximation to reduce the variance induced by this randomization. We demonstrate the superiority of our method across 2D CoinRun, 3D DeepMind Lab exploration and 3D robotics control tasks: it significantly outperforms various regularization and data augmentation methods for the same purpose.

연구 동기 및 목표

시험되지 않은, 그러나 의미적으로 유사한 환경에서 깊이 강화 학습 에이전트의 일반화 능력이 열 劣하는 문제를 해결하기 위해.
표준 강화 학습 에이전트가 종종 실패하는 고차원 관측 공간(예: 이미지)에서 강건성을 향상시키기 위해.
복잡한 아키텍처 변경이나 하이퍼파라미터 튜닝 없이도 일반화 성능을 향상시키는 최소한의 효과적인 기법을 개발하기 위해.
입력 랜덤화로 인해 발생하는 추론 중 분산을 몬테카를로 근사법을 사용해 줄이기 위해.
2D 및 3D 제어 작업을 포함한 다양한 환경에서 일관된 성능 향상을 입증하기 위해.

제안 방법

입력 관측값을 처리하기 전에 랜덤이고 고정된 변환(예: 필터, 노이즈)을 적용하는 랜덤화된 합성곱 신경망 레이어를 도입하기.
학습 및 추론 모두에서 랜덤화를 적용하여 에이전트가 입력 훼손에 대해 불변하는 특징을 학습하도록 유도하기.
추론 중에 몬테카를로 근사를 사용하여 랜덤화로 인한 분산을 안정화하고 줄이기.
표준 강화 학습 알고리즘을 사용해 엔드 투 엔드로 에이전트를 훈련시키며, 랜덤화 네트워크를 강건한 특징 학습을 촉진하는 정규화 기법으로 활용하기.
기본 기반 방법과 동일한 네트워크 아키텍처와 훈련 절차를 유지하며, 랜덤화 레이어 추가 외에는 차이가 없도록 하기.
이 기법을 이미지 기반 2D 및 3D 환경을 포함한 다양한 환경에 적용하여 일반화 성능 평가하기.

실험 결과

연구 질문

RQ1간단한 랜덤화된 합성곱 레이어가 다양한 환경에서 깊이 강화 학습 에이전트의 일반화 성능을 향상시킬 수 있는가?
RQ2이 랜덤화 기법은 일반화 성능 측면에서 표준 정규화 및 데이터 증강 방법과 비교해 어떻게 성과를 내는가?
RQ3몬테카를로 근사를 사용하면 입력 랜덤화로 인한 예측 분산을 효과적으로 줄일 수 있는가?
RQ4이 기법은 고차원 시각적 관측이 있는 2D 및 3D 환경 모두에 일반화 가능한가?
RQ5이 기법은 아키텍처 변경 없이도 새로운 환경에서 성능 유지를 유지하면서 표본 효율성과 훈련 안정성을 유지하는가?

주요 결과

제안된 기법은 2D CoinRun 환경에서 표준 정규화 및 데이터 증강 기법보다 일반화 성능이 유의미하게 뛰어나다.
3D DeepMind Lab 탐색 작업에서는 기반 방법 대비 더 높은 표본 효율성과 더 나은 새로운 레벨에 대한 일반화 성능을 달성한다.
3D 로봇 제어 작업에서는 랜덤화 기법을 사용해 훈련한 에이전트가 새로운 구성과 환경으로의 일반화가 더 효과적이다.
몬테카를로 추론 방법은 랜덤화로 인한 분산을 성공적으로 줄여 테스트 중 더 안정적이고 신뢰할 수 있는 예측을 가능하게 한다.
아키텍처 변경이나 추가 하이퍼파라미터 튜닝 없이도 강건성을 향상시켜 광범위한 적용 가능성을 입증한다.
고차원 시각적 입력을 포함한 모든 평가된 환경에서 최신 기술 수준의 일반화 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.