QUICK REVIEW

[논문 리뷰] Generalization in Reinforcement Learning with Selective Noise Injection and Information Bottleneck

Maximilian Igl, Kamil Ciosek|arXiv (Cornell University)|2019. 10. 28.

Reinforcement Learning in Robotics인용 수 57

한 줄 요약

이 논문은 Selective Noise Injection(SNI)과 Information Bottleneck Actor Critic(IBAC)을 도입하고, IB와 SNI의 결합이 CoinRun 및 Multiroom 벤치마크에서 RL 일반화의 최첨단 성능을 보임을 보여준다.

ABSTRACT

The ability for policies to generalize to new environments is key to the broad application of RL agents. A promising approach to prevent an agent's policy from overfitting to a limited set of training environments is to apply regularization techniques originally developed for supervised learning. However, there are stark differences between supervised learning and RL. We discuss those differences and propose modifications to existing regularization techniques in order to better adapt them to RL. In particular, we focus on regularization techniques relying on the injection of noise into the learned function, a family that includes some of the most widely used approaches such as Dropout and Batch Normalization. To adapt them to RL, we propose Selective Noise Injection (SNI), which maintains the regularizing effect the injected noise has, while mitigating the adverse effects it has on the gradient quality. Furthermore, we demonstrate that the Information Bottleneck (IB) is a particularly well suited regularization technique for RL as it is effective in the low-data regime encountered early on in training RL agents. Combining the IB with SNI, we significantly outperform current state of the art results, including on the recently proposed generalization benchmark Coinrun.

연구 동기 및 목표

보이지 않는 환경 전반에서 일반화를 향상시키기 위한 RL의 규제(정규화) 동기를 부여한다.
훈련 불안정화를 초래하지 않으면서 RL에 확률적 정규화 기법을 적용한다.
비정상적(non-stationary) 데이터 분포 하에서 견고성을 향상시키기 위한 특징 압축을 촉진한다.
액터-크리틱 RL에서 압축되고 전이 가능한 표현을 촉진하기 위해 IBAC를 제안한다.
제안된 방법들을 어려운 일반화 과제에서 평가하고 선행 연구와 비교한다.

제안 방법

유익할 때만 확률적 정규화를 적용하고 그렇지 않을 때는 결정론적으로 적용하는 Selective Noise Injection(SNI)을 도입한다.
RL에 Dropout과 변분 정보 병목(VIB)을 적용한다; SNI를 사용해 부정적 그래디언트 및 데이터 품질 영향을 완화한다.
IB 원칙을 액터-크리틱 RL 프레임워크에 통합하여 Information Bottleneck Actor Critic(IBAC)을 개발한다.
IBAC 목적함수를 액터-크리틱 손실, IB 정규화, 엔트로피/정규화 항의 조합으로 공식화한다.
오프 폴리시 보정의 분산을 줄이고 일반화를 향상시키기 위해 IBAC를 SNI와 결합한다.
Multiroom 및 CoinRun 벤치마크 전반에 걸쳐 PPO 기반 액터-크리틱 설정에서 평가한다.

실험 결과

연구 질문

RQ1그래디언트 품질과 데이터 효율성을 해치지 않으면서 RL에 확률적 정규화를 어떻게 안전하게 통합할 수 있나요?
RQ2선택적 노이즈 적용이 액터-크리틱 RL에서 불안정화를 피하면서 규제의 이점을 보존하나요?
RQ3저데이터의 초기 학습 단계에서 정보 병목 기반 규제가 RL의 일반화를 향상시킬 수 있나요?
RQ4IBAC와 SNI를 결합하면 Multiroom 및 CoinRun과 같은 도전적인 RL 벤치마크에서 더 우수한 일반화 성능을 얻을 수 있나요?

주요 결과

선택적 노이즈 주입은 롤아웃 품질 및 그래디언트 분산에 대한 노이즈의 부정적 효과를 줄인다.
IBAC는 입력 특징의 압축을 촉진하여 RL의 일반화를 개선하고 특히 저데이터 영역에서 효과적이다.
SNI와 결합된 IBAC가 CoinRun 및 Multiroom 벤치마크에서 이전의 최첨단 성능을 능가한다.
IBAC와 함께 확률적 정규화를 사용할 때 SNI가 학습을 안정화하는 데 도움을 준다.
CoinRun에서 SNI를 적용한 IBAC는 기준선 및 비확률적 기법에만 의존하는 다른 정규화 방식보다 현저히 우수하다.
적절한 정규화가 없는 IBAC는 특히 더 강한 확률적 요소에서 성능이 떨어질 수 있는데, SNI가 이 위험을 완화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.