QUICK REVIEW

[논문 리뷰] Automatic Data Augmentation for Generalization in Reinforcement Learning

Roberta Răileanu, Maxwell Goldstein|arXiv (Cornell University)|2021. 05. 04.

Reinforcement Learning in Robotics참고 문헌 41인용 수 30

한 줄 요약

이 논문은 다양한 환경 간 일반화를 향상시키는 딥 강화학습을 위한 자동 데이터 증강 방법을 제안한다. 학습 가능한 증강 정책과 정책 및 가치 함수를 위한 새로운 정규화 항을 조합함으로써, 이 방법은 Procgen 벤치마크에서 상대적 성능 향상 40%를 달성하고 새로운 최고 성능를 기록하며, 불필요한 환경 변화에 대해 불변인 강력한 정책을 학습한다.

ABSTRACT

Deep reinforcement learning (RL) agents often fail to generalize beyond their training environments. To alleviate this problem, recent work has proposed the use of data augmentation. However, different tasks tend to benefit from different types of augmentations and selecting the right one typically requires expert knowledge. In this paper, we introduce three approaches for automatically finding an effective augmentation for any RL task. These are combined with two novel regularization terms for the policy and value function, required to make the use of data augmentation theoretically sound for actor-critic algorithms. We evaluate our method on the Procgen benchmark which consists of 16 procedurally generated environments and show that it improves test performance by 40% relative to standard RL algorithms. Our approach also outperforms methods specifically designed to improve generalization in RL, thus setting a new state-of-the-art on Procgen. In addition, our agent learns policies and representations which are more robust to changes in the environment that are irrelevant for solving the task, such as the background.

연구 동기 및 목표

다양한 환경 간 딥 RL 에이전트의 열악한 일반화 문제를 해결하기 위해.
임의의 RL 작업에 대해 효과적인 증강을 자동으로 발견함으로써 전문가가 설계한 데이터 증강이 필요 없도록 하기 위해.
데이터 증강을 사용할 때 액터-크리틱 알고리즘과 호환되는 이론적으로 타당한 정규화 기법을 개발하기 위해.
배경 변화와 같은 불필요한 환경 변화에 대해 정책의 강건성을 향상시키기 위해.
딥 강화학습에서의 일반화를 위해 Procgen 벤치마크에서 새로운 최고 성능를 설정하기 위해.

제안 방법

임의의 RL 작업에 대해 효과적인 데이터 증강을 자동으로 발견하는 학습 가능한 증강 정책을 도입한다.
증강된 데이터를 액터-크리틱 프레임워크에서 사용할 때 이론적으로 일관성을 확보하기 위해, 정책 네트워크와 가치 함수를 위한 두 가지 새로운 정규화 항을 제안한다.
다양한 환경에서의 성능 기반으로 증강 정책을 최적화하기 위해 메타학습 접근법을 활용한다.
기울기 기반 최적화가 가능한 미분 가능 증강 검색 공간을 사용하여 증강 초모수를 최적화한다.
학습 중에 학습된 증강을 적용하여 태스크에 특화된 튜닝 없이 일반화를 향상시킨다.
다양한 역동성을 가진 16개의 정형적으로 생성된 환경을 포함하는 Procgen 벤치마크에서 방법을 검증한다.

실험 결과

연구 질문

RQ1전문가가 설계한 증강 없이도 자동 증강이 딥 강화학습의 일반화를 향상시킬 수 있는가?
RQ2데이터 증강을 어떻게 액터-크리틱 알고리즘에 те론적으로 타당한 방식으로 통합할 수 있는가?
RQ3자동 증강이 배경 변화와 같은 불필요한 환경 변화에 강건한 정책을 유도하는가?
RQ4이 방법은 일반화를 위해 특별히 설계된 기존 최고 성능 방법을 초월할 수 있는가?
RQ5제안된 정규화 항은 증강된 RL 학습의 안정성과 성능에 어떤 영향을 미치는가?

주요 결과

제안된 방법은 Procgen 벤치마크에서 표준 딥 RL 알고리즘보다 테스트 성능이 상대적으로 40% 향상된다.
이 방법은 기존의 일반화를 위해 특별히 설계된 방법들을 능가하는 성능로 Procgen 벤치마크에서 새로운 최고 성능를 기록한다.
학습된 정책은 배경 변화와 같은 불필요한 환경 변화에 더 강건하여, 더 나은 불변성 학습이 이루어졌음을 시사한다.
두 가지 새로운 정규화 항의 통합은 증강된 데이터를 사용할 때 액터-크리틱 알고리즘에서 안정적이고 이론적으로 타당한 학습을 보장한다.
자동 증강 정책은 인간의 간섭 없이 다양한 환경에서 효과적인 증강을 성공적으로 발견한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.