QUICK REVIEW

[논문 리뷰] Deployment-Efficient Reinforcement Learning via Model-Based Offline Optimization

Tatsuya Matsushima, Hiroki Furuta|arXiv (Cornell University)|2020. 06. 05.

Reinforcement Learning in Robotics참고 문헌 62인용 수 50

한 줄 요약

BREMEN 소개, 암시적 KL 정규화와 다 dynamics 모델 앙상블을 포함한 모델 기반 오프라인 RL 방법으로 높은 배포 효율성(5–10 배포)을 달성하면서 샘플 효율성을 경쟁력 있게 유지한다.

ABSTRACT

Most reinforcement learning (RL) algorithms assume online access to the environment, in which one may readily interleave updates to the policy with experience collection using that policy. However, in many real-world applications such as health, education, dialogue agents, and robotics, the cost or potential risk of deploying a new data-collection policy is high, to the point that it can become prohibitive to update the data-collection policy more than a few times during learning. With this view, we propose a novel concept of deployment efficiency, measuring the number of distinct data-collection policies that are used during policy learning. We observe that naïvely applying existing model-free offline RL algorithms recursively does not lead to a practical deployment-efficient and sample-efficient algorithm. We propose a novel model-based algorithm, Behavior-Regularized Model-ENsemble (BREMEN) that can effectively optimize a policy offline using 10-20 times fewer data than prior works. Furthermore, the recursive application of BREMEN is able to achieve impressive deployment efficiency while maintaining the same or better sample efficiency, learning successful policies from scratch on simulated robotic environments with only 5-10 deployments, compared to typical values of hundreds to millions in standard RL baselines. Codes and pre-trained models are available at https://github.com/matsuolab/BREMEN .

연구 동기 및 목표

고비용 배포 설정(의료, 로보틱스, 대화, 교육)에서 RL의 실용적 지표로 배포 효율성을 제시한다.
데이터 수집 정책 변경이 아주 적은 상태에서 성공적인 정책을 학습하는 알고리즘을 개발한다.
모델 앙상블과 보수적 업데이트를 활용해 작은 오프라인 데이터 세트로도 강한 성능을 달성한다.

제안 방법

Behavior-Regularized Model-ENsemble(BREMEN)을 제안하는데, 이는 결정론적(deterministic) 다 dynamics 모델의 앙상블과 신뢰 영역 최적으로 업데이트되는 정책을 결합한다.
모델 앙상블에서 가상의 롤아웃(imaginary rollouts)을 사용해 정책을 학습하고 실제 환경 상호작용에 대한 의존도를 줄인다.
가장 최근 데이터의 행동 복제(behavior cloning)로 정책을 초기화해 분포 변화에 대한 암시적 정규화를 수행한다.
정책 개선을 제약하고 학습을 정규화하기 위해 KL 기반의 신뢰 영역 업데이트를 적용한다(목표에 명시적 KL 패널티는 부여하지 않음).
수집된 데이터로 다 dynamics 모델을 학습하고 배포 시 배치 데이터를 수집해 모델 앙상블을 업데이트하며, 데이터로부터 행동 정책을 추정하고 정책을 재초기화한 뒤 가상의 롤아웃을 이용한 T회의 오프라인 KL-제한 업데이트를 수행한다.

실험 결과

연구 질문

RQ1배포 효율성을 RL의 실용적 지표로 사용해 데이터 수집 비용과 위험을 줄일 수 있는가?
RQ2엔진 다 dynamics 모델과 암시적 KL 정규화를 갖춘 모델 기반의 오프라인 접근이 배포 제약 하에서 전통적인 온라인/오프라인 RL 방법보다 우수한가?
RQ3BREMEN은 표준 오프라인 RL 벤치마크에서 서로 다른 데이터셋 규모(1M, 100K, 50K)와 배포 제약 시나리오에서 어떻게 성능을 보이는가?
RQ4행동 복제 초기화와 암시적 KL 정규화가 모델 바이어스와 분포 이동(distribution shift) 완화에 어떤 영향을 미치는가?

주요 결과

데이터셋	Ant	HalfCheetah	Hopper	Walker2d
1M transitions	BC 1321 ± 141	BCQ 2021 ± 31	BRAC 2072 ± 285	BRAC (max Q) 2369 ± 234	BREMEN 3328 ± 275	ME-TRPO (offline) 1258 ± 550
100K transitions	BC 1330 ± 81	BCQ 1363 ± 199	BRAC -157 ± 383	BRAC (max Q) -226 ± 387	BREMEN 1633 ± 127	ME-TRPO (offline) 974 ± 4
50K transitions	BC 1270 ± 65	BCQ 1329 ± 95	BRAC -878 ± 244	BRAC (max Q) -843 ± 279	BREMEN 1347 ± 283	ME-TRPO (offline) 938 ± 32

BREMEN은 MuJoCo 연속 제어 작업에서 5–10회의 배포만으로 성공적인 정책을 학습해 높은 배포 효율성을 달성한다.
오프라인 배치 설정에서 1M 전이 데이터에서 경쟁력 있는 성능을 달성하고, 더 작은 데이터셋(10–20배 작은)에서 베이스라인보다 우수한 성능을 보인다.
배포 제약이 있는 설정에서 SAC, ME-TRPO, BCQ, BRAC에 비해 BREMEN이 제한된 배포에서 현저히 더 나은 진행을 보인다.
행동 복제 초기화와 보수적 신뢰 영역 업데이트가 암시적 KL 정규화를 제공해 이 설정에서 명시적 KL 패널티보다 더 나은 성능을 낸다.
BREMEN의 오프라인 성능은 표준 벤치마크에서 모델 프리/오프라인 방법의 최첨단에 근접하는 반면 배포 수는 훨씬 적게 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.