QUICK REVIEW

[논문 리뷰] Temporal Difference Models: Model-Free Deep RL for Model-Based Control

Vitchyr H. Pong, Shixiang Gu|arXiv (Cornell University)|2018. 02. 25.

Reinforcement Learning in Robotics참고 문헌 27인용 수 44

한 줄 요약

시간차 모델(TDM)은 모델프리 학습으로 학습되는 목표-조건 가치 함수의 계열로, 계획을 위한 암묵적 모델 역할을 하며 모델-기반의 효율성과 모델-프리의 점근적 특성을 달성한다.

ABSTRACT

Model-free reinforcement learning (RL) is a powerful, general tool for learning complex behaviors. However, its sample efficiency is often impractically large for solving challenging real-world problems, even with off-policy algorithms such as Q-learning. A limiting factor in classic model-free RL is that the learning signal consists only of scalar rewards, ignoring much of the rich information contained in state transition tuples. Model-based RL uses this information, by training a predictive model, but often does not achieve the same asymptotic performance as model-free RL due to model bias. We introduce temporal difference models (TDMs), a family of goal-conditioned value functions that can be trained with model-free learning and used for model-based control. TDMs combine the benefits of model-free and model-based RL: they leverage the rich information in state transitions to learn very efficiently, while still attaining asymptotic performance that exceeds that of direct model-based RL methods. Our experimental results show that, on a range of continuous control tasks, TDMs provide a substantial improvement in efficiency compared to state-of-the-art model-based and model-free methods.

연구 동기 및 목표

모델-기반 계획의 효율성과 모델-프리의 점근적 성능을 결합해야 할 필요성을 제시한다.
시간차 모델을 모델-프리와 모델-기반 RL 사이의 다리로 소개한다.
레이블 재지정과 다단계 horizon이 TDM의 오프폴리시 학습을 효율적으로 가능하게 하는 방법을 보여준다.
연속 제어 과제에서 TDM이 우수한 샘플 효율성과 최종 성능을 달성함을 보여준다.

제안 방법

TDM을 휴리스 파라미터 tau를 가진 목표-조건 Q-함수로 정의한다.
거리 기반 보상 D(s, s_g)와 수평 파라미터를 인식하는 Q-학습 재귀 Q(s, a, s_g, tau)를 사용한다.
다른 목표 g와 휴리스 tau로 경험을 레이블 재지정하여 데이터 효율성을 극대화한다.
학습된 Q-함수를 이용한 MPC 유사 계획을 통해 또는 직접 Q 기반의 행동 선택을 통해 정책을 추출한다.
감독 신호를 향상시키기 위해 벡터 값 거리 보상(차원별)을 선택적으로 사용한다.
오프폴리시 학습을 위한 알고리즘(알고리즘 1)을 제공한다.

실험 결과

연구 질문

RQ1목표-조건 가치 함수가 계획 수평 tau를 가지면 모델-기반 학습과 모델-프리 학습 사이를 보간할 수 있는가?
RQ2연속 제어 과제에서 시간차 모델이 순수 모델-기반 또는 모델-프리 방법보다 더 나은 샘플 효율성을 달성하는가?
RQ3다른 목표와 수평으로의 레이블 재지정이 오프폴리시 학습에서 데이터 효율성을 개선하는가?
RQ4계획의 정책 추출이나 직접 제어에서 TDM을 실용적으로 어떻게 활용할 수 있는가?
RQ5벡터화된 거리 보상과 수평 파라미터 선택이 성능에 미치는 영향은 무엇인가?

주요 결과

TDM은 여러 연속 제어 과제에서 최첨단 모델-프리 방법보다 현저하게 우수한 샘플 효율성을 제공한다.
더 어려운 과제에서 모형 바이어스 감소로 최종 성능이 순수 모델-기반 방법을 능가한다.
다른 목표와 수평으로의 레이블 재지정은 강력한 데이터 효율성 향상을 제공하여 짧은-및 긴-수평 행동의 빠른 학습을 가능하게 한다.
벡터화된(차원별) 거리 보상은 스칼라 보상에 비해 샘플 효율성을 크게 향상시킨다.
TDM은 실제 로보틱스에 확장되며 Sawyer 7-DoF 팔에서 DDPG 대비 학습 효율이 향상된다.
변형 연구에 따르면 수평 tau는 모델-기반과 모델-프리 구간 간 보간을 제어하고, 벡터화가 스칼라 보상보다 학습을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.