QUICK REVIEW

[논문 리뷰] Asynchronous Methods for Model-Based Reinforcement Learning.

Yunzhi Zhang, Ignasi Clavera|arXiv (Cornell University)|2019. 10. 28.

Reinforcement Learning in Robotics인용 수 4

한 줄 요약

이 논문은 모델 기반 강화학습을 위한 이방식 프레임워크를 제안하며, 모델 학습과 정책 최적화를 분리하고 병렬화하여 벽시계 기준 훈련 시간을 데이터 수집 시간과 일치시킵니다. 이 방법은 더 나은 탐색과 부정확한 동역학 모델에 대한 정책 과적합을 줄임으로써 샘플 효율성을 향상시켜 MuJoCo 벤치마크와 실제 로봇 조작 작업에서 최신 기술 수준의 성능을 달성합니다.

ABSTRACT

Significant progress has been made in the area of model-based reinforcement learning. State-of-the-art algorithms are now able to match the asymptotic performance of model-free methods while being significantly more data efficient. However, this success has come at a price: state-of-the-art model-based methods require significant computation interleaved with data collection, resulting in run times that take days, even if the amount of agent interaction might be just hours or even minutes. When considering the goal of learning in real-time on real robots, this means these state-of-the-art model-based algorithms still remain impractical. In this work, we propose an asynchronous framework for model-based reinforcement learning methods that brings down the run time of these algorithms to be just the data collection time. We evaluate our asynchronous framework on a range of standard MuJoCo benchmarks. We also evaluate our asynchronous framework on three real-world robotic manipulation tasks. We show how asynchronous learning not only speeds up learning w.r.t wall-clock time through parallelization, but also further reduces the sample complexity of model-based approaches by means of improving the exploration and by means of effectively avoiding the policy overfitting to the deficiencies of learned dynamics models.

연구 동기 및 목표

최신 기술 수준의 모델 기반 RL 알고리즘의 긴 벽시계 기준 훈련 시간 문제를 해결하기 위해, 현재는 짧은 상호작용 기간에도 불구하고 며칠이 걸리는 문제를 해결한다.
데이터 수집 시간과 훈련 시간을 일치시켜 실제 로봇에서 실시간 학습을 가능하게 한다.
향상된 탐색과 부정확한 동역학 모델에 대한 정책 과적합 완화를 통해 샘플 효율성을 향상시킨다.
이방식 프레임워크가 시뮬레이션된 MuJoCo 환경과 실제 로봇 조작 작업 모두에서 효과적인지 입증한다.

제안 방법

프레임워크는 모델 학습과 정책 최적화를 분리하여 이방식으로 실행하고 병렬 처리할 수 있도록 한다.
전이를 저장하는 리PLAY 버퍼를 사용하며, 동역학 모델과 정책 네트워크의 개별 업데이트를 가능하게 한다.
학습과 분리된 행동 정책를 사용하여 오프-폴리시 데이터 수집을 수행함으로써 데이터 생성과 학습을 분리한다.
이방식 확률적 경사 하강법을 사용하여 동역학 모델과 정책 네트워크를 병렬로 훈련시켜 훈련 처리량을 향상시킨다.
학습 중 탐색을 향상시키기 위해 내재적 호기심 또는 탐색 보너스를 통합한다.
다양한 데이터로 정책를 업데이트할 수 있도록 하여, 잠재적으로 잘못된 동역학 모델에 대한 의존도를 줄임으로써 과적합을 감소시킨다.

실험 결과

연구 질문

RQ1이방식 훈련은 모델 기반 RL에서 벽시계 기준 훈련 시간을 데이터 수집 시간과 일치시킬 수 있는가?
RQ2이방식 학습은 모델 기반 RL에서 탐색을 향상시켜 샘플 효율성을 향상시키는가?
RQ3이방식 훈련은 학습된 동역학 모델의 부정확성에 의한 정책 과적합을 완화할 수 있는가?
RQ4기존의 동기식 대비 표준 MuJoCo 벤치마크에서 이방식 프레임워크는 어떤 성능을 보이는가?
RQ5이 프레임워크는 실제 로봇 조작 작업에서 실시간 학습을 실현 가능한가?

주요 결과

이방식 프레임워크는 벽시계 기준 훈련 시간을 데이터 수집 시간과 일치시켜 실시간 학습 잠재력을 확보한다.
더 나은 탐색을 가능하게 하여 샘플 효율성이 향상되어 시뮬레이션 및 실제 작업 모두에서 더 빠른 수렴을 이끌어낸다.
이방식 업데이트와 다양한 데이터 활용 덕분에 잘못된 동역학 모델에 대한 정책 과적합이 크게 감소한다.
MuJoCo 벤치마크에서 이 프레임워크는 최신 기술 수준의 오프-폴리시 및 모델 기반 방법의 점점 더 높은 최종 성능을 달성하거나 초월한다.
세 가지 실제 로봇 조작 작업에서 뛰어난 일반화 능력과 강건성을 입증하여 실시간 로봇 제어에 실용적임을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.