Skip to main content
QUICK REVIEW

[논문 리뷰] One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks

Tianhe Yu, Pieter Abbeel|arXiv (Cornell University)|2018. 10. 25.
Robot Manipulation and Learning참고 문헌 29인용 수 51
한 줄 요약

본 논문은 프리미티브 visuomotor 정책을 단일 인간 영상으로부터 학습하고 구성하기 위한 방법을 제시하며, 프리미티브를 메타-학습하고 프리미티브 단계 예측으로 다단계 작업을 원시 픽셀에서 엔드-투-엔드로 분절하고 실행한다.

ABSTRACT

We consider the problem of learning multi-stage vision-based tasks on a real robot from a single video of a human performing the task, while leveraging demonstration data of subtasks with other objects. This problem presents a number of major challenges. Video demonstrations without teleoperation are easy for humans to provide, but do not provide any direct supervision. Learning policies from raw pixels enables full generality but calls for large function approximators with many parameters to be learned. Finally, compound tasks can require impractical amounts of demonstration data, when treated as a monolithic skill. To address these challenges, we propose a method that learns both how to learn primitive behaviors from video demonstrations and how to dynamically compose these behaviors to perform multi-stage tasks by "watching" a human demonstrator. Our results on a simulated Sawyer robot and real PR2 robot illustrate our method for learning a variety of order fulfillment and kitchen serving tasks with novel objects and raw pixel inputs.

연구 동기 및 목표

  • 다중 단계 비전 기반 작업을 단일 인간 비디오에서 작업 라벨이나 세분화 없이 학습하는 것을 동기화한다.
  • 다른 물체에 대한 프리미티브 기술 시演을 활용하여 새로운 복합 작업에 빠르게 적응한다.
  • 데모를 분절하고 실행 중 프리미티브를 종료시키는 phase-predictor 메커니즘을 개발한다.
  • 휴먼 데모를 로봇 정책으로 번역하기 위해 원샷 모방학습과 메타러닝을 통합한다.
  • 새로운 물체와 원시 픽셀 입력을 가진 시뮬레이션 Sawyer 및 실제 PR2 로봇에서 접근 방식을 시연한다.

제안 방법

  • 단일 인간 데모에 원격 조작 데이터를 보강한 도메인 적응형 메타-모방학습(DAML)을 사용하여 프리미티브 정책을 학습한다.
  • 부분 데모에서 프리미티브의 완성 진행도를 추정하기 위해 인간 및 로봇 프리미티브-페이즈 예측기를 학습한다.
  • 인간 페이즈 예측기를 통해 새로운 복합 인간 데모를 프리미티브로 분해한 후 각 프리미티브를 원샷 학습기로 정책으로 번역한다.
  • 메타-학습된 파라미터를 학습된 적응 목표 L_ψ로 조정하여 각 프리미티브에 대해 정책을 계산하고 엔드-투-엔드 visuomotor 정책을 가능하게 한다.
  • 연속적으로 프리미티브를 실행하고 로봇 페이즈 예측기를 사용하여 다음 프리미티브로 전환할 시점을 결정한다.
  • 메타-학습 중 프리미티브 데모를 물체 across objects에서 활용하여 비디오에서 프리미티브를 모방하고 이를 새로운 작업에 구성하는 방법을 학습한다.

실험 결과

연구 질문

  • RQ1단일 비세분화된 인간 비디오로부터 프리미티브를 조합하여 시간적으로 연장된 작업을 로봇이 수행하는 것을 학습할 수 있는가?
  • RQ2다른 물체에 대한 프리미티브 데모를 활용하면 새로운 복합 작업에 대한 원샷 모방 및 구성 성능이 향상되는가?
  • RQ3페이즈 예측이 데모를 효과적으로 분절하고 실행 중 학습된 프리미티브 간 전환을 조절하는가?
  • RQ4DAMl 기반 원샷 모방학습은 엔드-투-엔드 visuomotor 설정에서 대안과 비교하여 어떤 성능 차이가 있는가?
  • RQ5시뮬레이션 및 실제 로봇에서 새로운 물체와 원시 픽셀 입력에 대해 접근 방식이 확장가능한가?

주요 결과

1 object2 objects
슬라이딩 윈도우(페이즈 예측 없음)50.0%16.7%
LSTM 원샷 학습기 (DAML 없음)0.0%0.0%
원샷 스킬 구성(당사)73.3%46.7%
  • 원샷 스킬 구성(ours) 은 시뮬레이션 주문 이행에서 1개 물체로 73.3%의 성공, 2개 물체로 46.7%의 성공을 달성하여, 슬라이딩 윈도우 baselines 및 LSTM-기반 학습자보다 우수하다.
  • 슬라이딩 윈도우(페이즈 예측 없음)는 1개 물체에서 50.0%, 2개 물체에서 16.7%의 성공을 달성했으며; LSTM 원샷 학습기( DAML 없음)는 두 설정에서 각각 0.0%였다.
  • PR2 주방 서빙 작업에서, 동일 대상 시나리오에 대해 원샷 스킬 구성 방법은 10/20의 성공, 서로 다른 대상 시나리오에서 7/20이었으며, 반면 슬라이딩 윈도우 basline은 두 경우 모두 0/20이었다.
  • 페이즈 예측 및 DAML 기반 메타러닝은 원시 픽셀에서 프리미티브를 효과적으로 구성하는 데 필수적이라는 것을 시사한다.
  • 대부분의 실패는 한 번의 시각 모방에서 잡기 어려움 때문이었으며, 향후 한-shot 시각 모방의 개선이 전체 성능을 향상시킬 것이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.