[논문 리뷰] MOPO: Model-based Offline Policy Optimization
MOPO는 모델 불확실성으로 보상에 패널티를 부과하는 오프라인 모델 기반 강화학습 방법을 도입하여 오프라인 데이터 분포를 넘어 안전하게 일반화하고, D4RL 및 분포 외(out-of-distribution) 작업에서 기존의 모델-프리 및 모델-기반 방법보다 우수하다.
Offline reinforcement learning (RL) refers to the problem of learning policies entirely from a large batch of previously collected data. This problem setting offers the promise of utilizing such datasets to acquire policies without any costly or dangerous active exploration. However, it is also challenging, due to the distributional shift between the offline training data and those states visited by the learned policy. Despite significant recent progress, the most successful prior methods are model-free and constrain the policy to the support of data, precluding generalization to unseen states. In this paper, we first observe that an existing model-based RL algorithm already produces significant gains in the offline setting compared to model-free approaches. However, standard model-based RL methods, designed for the online setting, do not provide an explicit mechanism to avoid the offline setting's distributional shift issue. Instead, we propose to modify the existing model-based RL methods by applying them with rewards artificially penalized by the uncertainty of the dynamics. We theoretically show that the algorithm maximizes a lower bound of the policy's return under the true MDP. We also characterize the trade-off between the gain and risk of leaving the support of the batch data. Our algorithm, Model-based Offline Policy Optimization (MOPO), outperforms standard model-based RL algorithms and prior state-of-the-art model-free offline RL algorithms on existing offline RL benchmarks and two challenging continuous control tasks that require generalizing from data collected for a different task. The code is available at https://github.com/tianheyu927/mopo.
연구 동기 및 목표
- 데이터 지원 범위와 목표 작업을 넘어 일반화할 수 있는 오프라인 RL을 고무한다.
- 분포 전이(분포 이동)를 불확실성 페널리로 관리하는 모델 기반의 오프라인 RL 알고리즘을 개발한다.
- MOPO가 실제 반환에 대한 하한을 최대화한다는 이론적 보장을 제공한다.
- 보상에 페널티를 주는 앙상블 기반 불확실성으로 MOPO의 구현을 제안한다.
- 표준 오프라인 RL 벤치마크 및 분포 외 일반화가 필요한 작업에서 MOPO를 평가한다.]
- method:[
- 정확성: MBPO를 기반으로 모델 오차 추정에서 도출한 불확실성 기반 보상 페널티를 도입한다.
- 정의된 불확실성 페널티 보상: tilde{r}(s,a) = r(s,a) - lambda * u(s,a).
- 다이나믹스는 확률 모델의 앙상블로 추정하고 최대 앙상블 분산을 u(s,a)로 사용한다.
- 불확실성 페널티가 적용된 MDP에서 정책을 학습하여 보수적 수익을 극대화한다.
- 이론적 한계: eta_M(hat{pi}) >= max_pi { eta_M(pi) - 2 lambda epsilon_u(pi) }를 제공한다.
- MOPO 구현을 위한 실용적 가이드라인을 제시하며, lambda가 오차 추정기와 어떻게 관련되는지 및 계산 방법을 포함한다.
제안 방법
- MBPO를 기반으로 모델 오차 추정에서 도출한 불확실성 기반 보상 페널티를 도입한다.
- 정의된 불확실성 페널티 보상: tilde{r}(s,a) = r(s,a) - lambda * u(s,a).
- 다이나믹스를 확률 모델 앙상블로 추정하고 최대 앙상블 분산을 u(s,a)로 사용한다.
- 불확실성 페널티가 적용된 MDP에서 정책을 학습하여 보수적 수익을 극대화한다.
- 이론적 한계: eta_M(hat{pi}) >= max_pi { eta_M(pi) - 2 lambda epsilon_u(pi) }를 제공한다.
- MOPO 구현을 위한 실용적 가이드라인을 제시하며, lambda가 오차 추정기와 어떻게 관련되는지 및 계산 방법을 포함한다.
실험 결과
연구 질문
- RQ1오프라인 모델 기반 RL이 모델-프리 오프라인 방법보다 데이터 지원 범위를 넘어 일반화할 수 있는가?
- RQ2다이나믹스에 대한 불확실성을 어떻게 정량화하고 보상에 통합하여 위험과 수익 사이의 균형을 맞출 것인가?
- RQ3MOPO가 표준 벤치마크 및 분포 외 작업에서 기존의 모델-프리 오프라인 방법을 능가하는가?
- RQ4진짜 MDP에 비해 MOPO의 성능에 대해 어떤 이론적 보장을 제공할 수 있는가?
주요 결과
| 데이터셋 유형 | BC | MOPO (ours) | MBPO | SAC | BEAR | BRAC-v | |
|---|---|---|---|---|---|---|---|
| random | 2.1 | 35.4 ± 2.5 | 30.7 ± 3.9 | 30.5 | 25.5 | 28.1 | |
| random | halfcheetah | 1.6 | 11.7 ± 0.4 | 4.5 ± 6.0 | 11.3 | 9.5 | 12.0 |
| random | hopper | 1.6 | 11.7 ± 0.4 | 4.5 ± 6.0 | 11.3 | 9.5 | 12.0 |
| medium | halfcheetah | 36.1 | 42.3 ± 1.6 | 28.3 ± 22.7 | -4.3 | 38.6 | 45.5 |
| medium | hopper | 29.0 | 28.0 ± 12.4 | 4.9 ± 3.3 | 0.8 | 47.6 | 32.3 |
| medium | walker2d | 6.6 | 17.8 ± 19.3 | 12.7 ± 7.6 | 0.9 | 33.2 | 81.3 |
| mixed | halfcheetah | 38.4 | 53.1 ± 2.0 | 47.3 ± 12.6 | -2.4 | 36.2 | 45.9 |
| mixed | hopper | 11.8 | 67.5 ± 24.7 | 49.8 ± 30.4 | 1.9 | 10.8 | 0.9 |
| mixed | walker2d | 11.3 | 39.0 ± 9.6 | 22.2 ± 12.7 | 3.5 | 25.3 | 0.8 |
| med-expert | halfcheetah | 35.8 | 63.3 ± 38.0 | 9.7 ± 9.5 | 1.8 | 51.7 | 45.3 |
| med-expert | hopper | 111.9 | 23.7 ± 6.0 | 56.0 ± 34.5 | 1.6 | 4.0 | 0.8 |
| med-expert | walker2d | 6.4 | 44.6 ± 12.9 | 7.6 ± 3.7 | -0.1 | 26.0 | 66.6 |
- MOPO는 D4RL 벤치마크의 여러 데이터셋에서 모델-프리 오프라인 RL 알고리즘보다 상당히 우수한 성능을 보인다.
- MOPO는 분포 외 상태로 일반화가 필요한 작업에서도 베이스라인을 능가하며 보이지 않는 상태에 도달하는 능력을 보여준다.
- 두 가지 주요 결과: (i) MOPO의 불확실성 페널티 프레임워크가 보수적이면서도 효과적인 정책 최적화를 제공한다; (ii) 기본 MBPO도 오프라인 설정에서 SAC를 능가할 수 있어 배치 RL에 대한 모델 기반 접근의 타당성을 뒷받침한다.
- 학습된 정책의 성능과 경로 상의 모델 오차 사이의 상한과 관련된 잠재적 이익-위험 간의 명시적 trade-off를 특징으로 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.