[논문 리뷰] Improving Generalization in Reinforcement Learning with Mixture Regularization
Mixreg은 서로 다른 환경에서 얻은 관찰의 혼합과 보간된 감독 신호를 사용하여 RL 에이전트를 학습시키며, 정책 기반 및 가치 기반 방법에서 Procgen에 대한 일반화 성능을 향상시킨다.
Deep reinforcement learning (RL) agents trained in a limited set of environments tend to suffer overfitting and fail to generalize to unseen testing environments. To improve their generalizability, data augmentation approaches (e.g. cutout and random convolution) are previously explored to increase the data diversity. However, we find these approaches only locally perturb the observations regardless of the training environments, showing limited effectiveness on enhancing the data diversity and the generalization performance. In this work, we introduce a simple approach, named mixreg, which trains agents on a mixture of observations from different training environments and imposes linearity constraints on the observation interpolations and the supervision (e.g. associated reward) interpolations. Mixreg increases the data diversity more effectively and helps learn smoother policies. We verify its effectiveness on improving generalization by conducting extensive experiments on the large-scale Procgen benchmark. Results show mixreg outperforms the well-established baselines on unseen testing environments by a large margin. Mixreg is simple, effective and general. It can be applied to both policy-based and value-based RL algorithms. Code is available at https://github.com/kaixin96/mixreg .
연구 동기 및 목표
- RL에서 일반화 격차를 줄이기 위한 학습 데이터 다양성 증가.
- 관찰과 감독 신호를 혼합하는 간단하지만 효과적인 RL 정규화를 도입한다.
- mixreg의 정책 기반 및 가치 기반 RL 알고리즘에 대한 적용 가능성을 입증한다.
- Procgen에서 표준 데이터 증강 방법보다 mixreg가 더 큰 일반화 이득을 낸다는 것을 보여준다.
제안 방법
- 학습 배치에서 두 관찰 s_i와 s_j를 볼록 결합하여 증강 관찰을 생성: s̃ = λ s_i + (1−λ) s_j, λ ∼ Beta(α, α).
- 보간된 감독 신호 ỹ = λ y_i + (1−λ) y_j(예: 보상이나 상태 값)를 연결한다.
- 정책 기반 방법에 mixreg를 적용하여 표준 정책 목표를 보간된 항으로 대체한다(예: L̃^PG가 혼합된 상태와 이점을 포함한다).
- 가치 기반 방법(예: Rainbow)에 mixreg를 적용하여 목표 및 손실 항을 보간된 관찰 및 보상으로 대체한다(예: L̃^DQN).
- 감독 신호를 혼합하는 것이 성능 향상에 있어 관찰 혼합 이상으로 중요하다는 것을 보인다.
- Procgen 벤치마크에서 PPO(정책 기반)와 Rainbow(가치 기반)에 대한 적용 가능성을 입증한다.
실험 결과
연구 질문
- RQ1Mixreg가 보지 못한 테스트 환경에서 제로샷 일반화 성능을 향상시키나요?
- RQ2Mixreg가 다양한 RL 알고리즘 계열 및 모델 크기에서 효과적입니까?
- RQ3Mixreg의 일반화 이득을 이끄는 메커니즘은 무엇인가요(예: 더 부드러운 정책, 더 나은 표현 학습)?
주요 결과
- Mixreg가 500-level Procgen 일반화에서 PPO 베이스라인을 크게 능가합니다.
- Mixreg는 표준 데이터 증강 및 정규화(예: cutout-color, random crop, batch norm, L2)보다 더 일관된 이득을 제공합니다.
- Mixreg는 모델 크기에 상관없이 일반화 성능을 향상시키며 Rainbow(DQN 변형)에도 이득을 주며 태스크별 튜닝이 필요하지 않습니다.
- 다른 정규화 기법(L2 등)과 결합했을 때 Mixreg의 추가 이득이 나타납니다.
- Mixreg의 이점은 더 부드러운 정책 학습과 더 나은 표현 학습을 가능하게 하는 두 가지 효과에서 비롯되며, 이를 통해 차등적 분석 및 파인튜닝에서 확인됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.