Skip to main content
QUICK REVIEW

[논문 리뷰] Temporal Difference Models: Model-Free Deep RL for Model-Based Control

Vitchyr H. Pong, Shixiang Gu|arXiv (Cornell University)|2018. 02. 25.
Reinforcement Learning in Robotics참고 문헌 27인용 수 44
한 줄 요약

시간차 모델(TDM)은 모델프리 학습으로 학습되는 목표-조건 가치 함수의 계열로, 계획을 위한 암묵적 모델 역할을 하며 모델-기반의 효율성과 모델-프리의 점근적 특성을 달성한다.

ABSTRACT

Model-free reinforcement learning (RL) is a powerful, general tool for learning complex behaviors. However, its sample efficiency is often impractically large for solving challenging real-world problems, even with off-policy algorithms such as Q-learning. A limiting factor in classic model-free RL is that the learning signal consists only of scalar rewards, ignoring much of the rich information contained in state transition tuples. Model-based RL uses this information, by training a predictive model, but often does not achieve the same asymptotic performance as model-free RL due to model bias. We introduce temporal difference models (TDMs), a family of goal-conditioned value functions that can be trained with model-free learning and used for model-based control. TDMs combine the benefits of model-free and model-based RL: they leverage the rich information in state transitions to learn very efficiently, while still attaining asymptotic performance that exceeds that of direct model-based RL methods. Our experimental results show that, on a range of continuous control tasks, TDMs provide a substantial improvement in efficiency compared to state-of-the-art model-based and model-free methods.

연구 동기 및 목표

  • 모델-기반 계획의 효율성과 모델-프리의 점근적 성능을 결합해야 할 필요성을 제시한다.
  • 시간차 모델을 모델-프리와 모델-기반 RL 사이의 다리로 소개한다.
  • 레이블 재지정과 다단계 horizon이 TDM의 오프폴리시 학습을 효율적으로 가능하게 하는 방법을 보여준다.
  • 연속 제어 과제에서 TDM이 우수한 샘플 효율성과 최종 성능을 달성함을 보여준다.

제안 방법

  • TDM을 휴리스 파라미터 tau를 가진 목표-조건 Q-함수로 정의한다.
  • 거리 기반 보상 D(s, s_g)와 수평 파라미터를 인식하는 Q-학습 재귀 Q(s, a, s_g, tau)를 사용한다.
  • 다른 목표 g와 휴리스 tau로 경험을 레이블 재지정하여 데이터 효율성을 극대화한다.
  • 학습된 Q-함수를 이용한 MPC 유사 계획을 통해 또는 직접 Q 기반의 행동 선택을 통해 정책을 추출한다.
  • 감독 신호를 향상시키기 위해 벡터 값 거리 보상(차원별)을 선택적으로 사용한다.
  • 오프폴리시 학습을 위한 알고리즘(알고리즘 1)을 제공한다.

실험 결과

연구 질문

  • RQ1목표-조건 가치 함수가 계획 수평 tau를 가지면 모델-기반 학습과 모델-프리 학습 사이를 보간할 수 있는가?
  • RQ2연속 제어 과제에서 시간차 모델이 순수 모델-기반 또는 모델-프리 방법보다 더 나은 샘플 효율성을 달성하는가?
  • RQ3다른 목표와 수평으로의 레이블 재지정이 오프폴리시 학습에서 데이터 효율성을 개선하는가?
  • RQ4계획의 정책 추출이나 직접 제어에서 TDM을 실용적으로 어떻게 활용할 수 있는가?
  • RQ5벡터화된 거리 보상과 수평 파라미터 선택이 성능에 미치는 영향은 무엇인가?

주요 결과

  • TDM은 여러 연속 제어 과제에서 최첨단 모델-프리 방법보다 현저하게 우수한 샘플 효율성을 제공한다.
  • 더 어려운 과제에서 모형 바이어스 감소로 최종 성능이 순수 모델-기반 방법을 능가한다.
  • 다른 목표와 수평으로의 레이블 재지정은 강력한 데이터 효율성 향상을 제공하여 짧은-및 긴-수평 행동의 빠른 학습을 가능하게 한다.
  • 벡터화된(차원별) 거리 보상은 스칼라 보상에 비해 샘플 효율성을 크게 향상시킨다.
  • TDM은 실제 로보틱스에 확장되며 Sawyer 7-DoF 팔에서 DDPG 대비 학습 효율이 향상된다.
  • 변형 연구에 따르면 수평 tau는 모델-기반과 모델-프리 구간 간 보간을 제어하고, 벡터화가 스칼라 보상보다 학습을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.