Skip to main content
QUICK REVIEW

[논문 리뷰] Dynamics-Aware Unsupervised Discovery of Skills

Archit Sharma, Shixiang Gu|arXiv (Cornell University)|2019. 07. 02.
Reinforcement Learning in Robotics참고 문헌 68인용 수 75
한 줄 요약

DADS는 감독 없이 연속적이고 예측 가능한 스킬 세트를 발견하고 학습된 다이나믹스를 zero-shot 모델 기반 계획에 활용하여 강력한 베이스라인을 능가합니다.

ABSTRACT

Conventionally, model-based reinforcement learning (MBRL) aims to learn a global model for the dynamics of the environment. A good model can potentially enable planning algorithms to generate a large variety of behaviors and solve diverse tasks. However, learning an accurate model for complex dynamical systems is difficult, and even then, the model might not generalize well outside the distribution of states on which it was trained. In this work, we combine model-based learning with model-free learning of primitives that make model-based planning easy. To that end, we aim to answer the question: how can we discover skills whose outcomes are easy to predict? We propose an unsupervised learning algorithm, Dynamics-Aware Discovery of Skills (DADS), which simultaneously discovers predictable behaviors and learns their dynamics. Our method can leverage continuous skill spaces, theoretically, allowing us to learn infinitely many behaviors even for high-dimensional state-spaces. We demonstrate that zero-shot planning in the learned latent space significantly outperforms standard MBRL and model-free goal-conditioned RL, can handle sparse-reward tasks, and substantially improves over prior hierarchical RL methods for unsupervised skill discovery.

연구 동기 및 목표

  • planning을 촉진하기 위해 외재적 보상 없이 다양한, 예측 가능한 스킬을 학습하는 것을 동기화한다.
  • 잠재 공간에서의 계획을 가능하게 하는 스킬 조건부 정책 및 스킬 특화 전이 모델을 개발한다.
  • 연속 스킬 공간이 이산 스킬 세트보다 더 풍부하고 더 잘 제어 가능한 행동으로 이어짐을 보여준다.
  • 모델 기반 방법을 사용하여 학습된 잠재 공간에서 계획함으로써 제로샷 작업 해결을 시연한다.

제안 방법

  • 상이하고 예측 가능한 스킬을 촉진하기 위해 상호 정보 I(s′; z | s) 목표를 최대화한다.
  • 스킬 조건부 정책 π(a|s, z) 및 스킬 조건부 전이 모델 qφ(s′|s, z)을 학습한다.
  • 상호 정보 목표를 최적화하기 위해 변분 하한을 적용하고 KL 발산 항으로 이를 강화한다.
  • qφ하에서 예측 가능성과 z 간 다양성을 촉진하는 tractable intrinsic reward r_z(s, a, s′)를 계산한다.
  • 추가 학습 없이 다운스트림 작업을 위해 학습된 스킬을 조합하기 위해 잠재 공간 Z에서 MPC로 모델 기반 계획을 사용한다.

실험 결과

연구 질문

  • RQ1스킬의 비지도 학습이 예측하기 쉽고 계획하기 쉬운 연속적이고 확장 가능한 잠재 공간을 yield할 수 있는가?
  • RQ2스킬의 잠재 공간에서 계획이 고차원 다이나믹스의 다운스트림 작업에 대한 제로샷 해를 가능하게 하는가?
  • RQ3연속 스킬이 이산 스킬보다 계층적 구성 및 장기 계획에 더 적합한가?
  • RQ4스킬 예측 가능성이 행동의 분산 및 다운스트림 계획 성능에 어떤 영향을 주는가?
  • RQ5DADS가 내비게이션 및 주행 작업에서 표준 모델 기반 RL 베이스라인 및 목표조건 RL과 비교하여 어떤 차이가 있는가?

주요 결과

  • DADS는 MuJoCo 주행 로봇 작업에서 보상 없이도 다양한 저분산의 예측 가능한 스킬을 학습한다.
  • 스킬의 연속 잠재 공간은 이산 스킬 세트보다 더 매끄럽고 보간 가능한 행동을 생성한다.
  • 학습된 스킬 다이나믹스에 대해 MPC로 계획하는 것은 제로샷 작업 해결을 가능하게 하며 최첨단 모델 기반 RL 베이스라인을 능가한다.
  • MPPI를 사용한 DADS 스킬의 계층적 제어는 DIAYN 기반 계층구조 및 목표 조건 RL에 비해 다운스트림 내비게이션 작업을 개선한다.
  • 연속 프리미티브 변형이 이산 프리미티브보다 계층적 구성 및 다운스트림 작업 성능 면에서 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.