QUICK REVIEW

[논문 리뷰] Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion

Jacob Buckman, Danijar Hafner|arXiv (Cornell University)|2018. 07. 04.

Reinforcement Learning in Robotics참고 문헌 26인용 수 97

한 줄 요약

STEVE는 모델 기반 롤아웃과 모델-프리 TD 학습을 앙상블을 사용해 불확실성을 추정하고 롤아웃 허용 범위를 적응적으로 조정하여 모델 편향 저하 없이 샘플 효율성을 높인다.

ABSTRACT

Integrating model-free and model-based approaches in reinforcement learning has the potential to achieve the high performance of model-free algorithms with low sample complexity. However, this is difficult because an imperfect dynamics model can degrade the performance of the learning algorithm, and in sufficiently complex environments, the dynamics model will almost always be imperfect. As a result, a key challenge is to combine model-based approaches with model-free learning in such a way that errors in the model do not degrade performance. We propose stochastic ensemble value expansion (STEVE), a novel model-based technique that addresses this issue. By dynamically interpolating between model rollouts of various horizon lengths for each individual example, STEVE ensures that the model is only utilized when doing so does not introduce significant errors. Our approach outperforms model-free baselines on challenging continuous control benchmarks with an order-of-magnitude increase in sample efficiency, and in contrast to previous model-based approaches, performance does not degrade in complex environments.

연구 동기 및 목표

강화학습에서 모델 기반과 모델-프리 접근 방식을 통합하여 샘플 복잡성을 줄이는 것을 동기화한다.
불완전한 다이내믹스에서 발생하는 모델 편향 문제를 적응적으로 롤아웃을 활용함으로써 해결한다.
각 예제별로 목표 오차를 최소화하도록 불확실성 인식 방법으로 롤아웃 허용 범위를 선택한다.

제안 방법

불확실성을 추정하기 위해 Q-함수, 보상 모델, 다이내믹스 모델의 앙상블을 사용한다.
학습된 모델을 여러 허용 범위로 언롤링하고 여러 후보 TD 타깃을 계산한다.
0에서 H까지의 허용 범위에서 후보 타깃의 역분산 가중 평균으로 STEVE 타깃을 계산한다.
TD 학습에서 Q-함수 훈련 시 TD 타깃을 STEVE 타깃으로 대체한다.
편향-분산 분해와 타깃 분산의 근사적 최소화를 통해 이론적 타당성을 제공한다.
DDPG 백본으로 연속 제어 벤치마크에서 성능을 시연하고 비교한다.

실험 결과

연구 질문

RQ1확률적 앙상블과 불확실성 가이드 허용 범위 선택이 모델 기반 가치 확장의 안정성 및 효율성을 향상시킬 수 있는가?
RQ2STEVE가 노이즈가 있는 모델에서도 순수 모델-프리 방법과 표준 MVE를 능가하는가? 도전적인 연속 제어 과제에서의 성능은 어떠한가?
RQ3동적 허용 범위 가중치가 샘플 효율성과 모델 오차에 대한 강인성에 어떤 영향을 미치는가?

주요 결과

STEVE는 도전적인 연속 제어 과제에서 모델-프리 기준선에 비해 샘플 효율성을 크게 향상시킨다.
STEVE는 모델의 불완전성에 대해 견고하며, 노이즈가 있는 모델에서 일반적인 MVE가 발산할 수 있는 것과 달리 견고하다.
역분산 가중 평균으로 타깃을 평균화하면 불확실성 추정을 활용해 타깃 오차를 줄일 수 있다.
변형 연구 결과는 불확실성 인식 재가중이 모델 확장된 앙상블보다 성능 향상을 주도한다를 보여준다.
동일한 환경을 병렬로 처리할 때 샘플 효율이 더 좋아져 STEVE가 모델-프리 방법과 경쟁력이 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.