[논문 리뷰] Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability
논문은 RL 일반화를 MDP들에 대한 지식의 한정적(epistemic) 불확실성으로 유도된 인식론적 POMDP로 재정의하고, LEEP 앙상블 방법을 도입하며, ProcGen에서 테스트 시 일반화가 향상됨을 보여준다.
Generalization is a central challenge for the deployment of reinforcement learning (RL) systems in the real world. In this paper, we show that the sequential structure of the RL problem necessitates new approaches to generalization beyond the well-studied techniques used in supervised learning. While supervised learning methods can generalize effectively without explicitly accounting for epistemic uncertainty, we show that, perhaps surprisingly, this is not the case in RL. We show that generalization to unseen test conditions from a limited number of training conditions induces implicit partial observability, effectively turning even fully-observed MDPs into POMDPs. Informed by this observation, we recast the problem of generalization in RL as solving the induced partially observed Markov decision process, which we call the epistemic POMDP. We demonstrate the failure modes of algorithms that do not appropriately handle this partial observability, and suggest a simple ensemble-based technique for approximately solving the partially observed problem. Empirically, we demonstrate that our simple algorithm derived from the epistemic POMDP achieves significant gains in generalization over current methods on the Procgen benchmark suite.
연구 동기 및 목표
- RL에서 일반화가 지도학습보다 더 어려운 이유를 시퀀스 구조와 인식론적 불확실성 때문이라고 동기 부여한다.
- 훈련-테스트 분할 아래의 일반화를 포스트eri에 의해 유도된 MDP 불확실성의 인식론적 POMDP로 형식화한다.
- 테스트 시 보상을 극대화하도록 정책들을 앙상블하고 이를 결합하는 실용적 알고리즘(LEEP)을 제안한다.
- implicit partial observability를 간과하는 표준 MDP 중심의 RL 방법의 실패 모드를 분석한다.
- 제안된 접근법을 사용하여 ProcGen 벤치마크에서 실험적 이득을 시연한다.
제안 방법
- 후향적 MDP에 대한 샘플링으로 에피소드가 단일 샘플링된 MDP에서 소모되어 암묵적 부분 관찰성을 생성하는 epistemic POMDP를 도입한다.
- 에피스터틱 POMDP 상태를 쌍 (MDP, s)로 정의하고, 테스트 시 보상이 잘 정의된 사전확률 하에서 POMDP 보상과 같음을 보인다.
- 포스트eri MDP들에 걸친 성능과 정책 집합의 성능 간의 이론적 경계(bound)를 도출한다.
- 유한 포스트eri 샘플 크기를 가진 empirical epistemic POMDP를 제시하고 이를 나중에 합쳐지는 per-MDP 정책으로 분해한다.
- 포스트eri를 근사하기 위해 bootstrap 샘플을 사용하는 LEEP 알고리즘을 제시하고 KL-발산 기반 결합 항으로 정책 앙상블을 학습한다.
- 최종 정책은 테스트 시 성능을 극대화하기 위해 앙상블 정책을 집계하여 구성되는 방식으로 보여준다.
실험 결과
연구 질문
- RQ1MDP들에 대한 인식론적 불확실성이 RL에서 보지 못한 맥락으로의 일반화에 어떻게 영향을 미치는가?
- RQ2단일 MDP가 아닌 인식론적 POMDP를 해결함으로써 일반화를 이해하고 개선할 수 있는가?
- RQ3제한된 훈련 맥락에서 LEEP와 같은 앙상블 기반 접근 방식이 테스트 시 더 나은 보상으로 이어지는가?
- RQ4암묵적 부분 관찰성에 직면한 표준 MDP 중심의 RL 방법의 실패 모드는 무엇인가?
- RQ5실용적인 posterior 근사(예: 부트스트랩)를 이용해 컨텍스추얼 RL에서 Bayes-최적행동을 구현할 수 있는가?]
- RQ6key_findings([
- RQ7
주요 결과
- RL에서의 일반화는 훈련 맥락에 의해 유도된 암묵적 부분 관찰성에 의해 방해된다.
- 에피스테믹 POMDP 프레임워크는 테스트 시 성능을 포스터리어 over MDP들에 대한 Bayes-최적 행동과 동일시한다.
- 결정론적이고 MDP 중심의 정책은 테스트 시 불확실성 하에서 처음부터 성능이 좋지 않을 수 있다; Bayes-최적 행동은 종종 확률적이거나 비-마르코프적이다.
- 간단한 앙상블 기반 방법(LEEP)은 테스트 시 보상을 극대화하기 위한 Bayes-최적 정책을 근사할 수 있다.
- ProcGen 과제에서 표준 RL 벤치마크 대비 테스트 시 성능에 의미 있는 향상을 보인다.
- 이론적 결과는 per-MDP 정책 성능과 하나의 정책에 의한 모방 가능성을 POMDP 전체 성능과 연결하여 실용 알고리즘 설계를 돕는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.