Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Imitation Learning for Complex Manipulation Tasks from Virtual Reality Teleoperation

Tianhao Zhang, Zoe McCarthy|arXiv (Cornell University)|2017. 10. 12.
Robot Manipulation and Learning참고 문헌 50인용 수 54
한 줄 요약

저자들은 소비자용 VR 텔레오프 시스템을 구축하여 시연을 수집하고 행동 복제학을 통해 깊은 시각운동 정책을 학습하며, 데이터가 각 작업당 30분 미만인 상태에서 10개의 실제 세계 조작 작업에서 높은 성공률을 달성합니다.

ABSTRACT

Imitation learning is a powerful paradigm for robot skill acquisition. However, obtaining demonstrations suitable for learning a policy that maps from raw pixels to actions can be challenging. In this paper we describe how consumer-grade Virtual Reality headsets and hand tracking hardware can be used to naturally teleoperate robots to perform complex tasks. We also describe how imitation learning can learn deep neural network policies (mapping from pixels to actions) that can acquire the demonstrated skills. Our experiments showcase the effectiveness of our approach for learning visuomotor skills.

연구 동기 및 목표

  • 저비용 VR 텔레오프 설정을 통해 고품질 로봇 조작 시연을 수집하는 것을 입증한다.
  • 행동 복제를 사용하여 픽셀에서 행동으로 매핑되는 깊은 시각-운동 정책을 학습한다.
  • 제한된 데이터로도 하나의 신경망 구조가 여러 조작 작업을 처리할 수 있음을 보여준다.
  • 샘플 효율성과 학습에 대한 보조 자기지도 손실의 영향을 분석한다.
  • 보지 않은 초기 상태와 작업 변형에 대한 일반화를 탐구한다.

제안 방법

  • Vive VR 헤드셋과 모션 트랙킹 컨트롤러를 사용하여 PR2 로봇을 공유된 관측 및 행동 공간으로 텔레오페이트한다.
  • 입력으로 RGB-D 이미지와 엔드이펙터 이력을 캡처한다; 오른팔의 그리퍼 명령, 각속도 및 선속도를 출력한다.
  • 이미지에서 특징 추출을 위한 세 모듈(비전, 보조, 제어)을 갖는 신경망을 채택하고 공간 소프트 아그맥스를 사용한다.
  • L2, L1, 방향 정렬 손실 및 그리퍼 열림/닫힘 손실과 보조 손실로 구성된 행동 복제 손실로 학습한다.
  • 데이터 효율성을 높이기 위해 현재 및 최종 그리퍼 자세 예측 등 다른 작업 관련 신호를 예측하는 자기지도 보조 작업을 포함한다.
  • 작업 간 고정 하이퍼파라미터 집합으로 확률적 경사하강법/ADAM을 사용하여 최적화한다.

실험 결과

연구 질문

  • RQ1저비용 VR 텔레오퍼레이션으로 픽셀에서 시각-운동 정책 학습에 적합한 시연을 수집할 수 있는가?
  • RQ2다양한 조작 작업에서 성공적인 정책을 학습하는 데 필요한 데이터 효율성(시연 시간)은 얼마인가?
  • RQ3보조 자기지도 손실이 실제 로봇 조작에서 데이터 효율성을 향상시키는가?
  • RQ4정해지지 않은 초기 상태와 작업 변형에 대해 정책의 일반화 성능은 어느 정도인가?

주요 결과

  • VR 시연은 실제 세계의 다양한 작업에 대해 고성능의 깊은 시각-운동 정책을 가능하게 했다.
  • 대부분의 작업은 작업당 30분 미만의 시연으로 높은 성공률을 달성했다.
  • VR를 통해 수집된 시연은 학습에 충분한 자연스러운 변화를 제공했다.
  • 보조 예측 손실은 실제 로봇 조작에서 데이터 효율성을 향상시켰다.
  • 정해지지 않은 초기 상태와 외삽된 시나리오에 일반화된 정책을 보였다.
  • 이 접근법은 장기적이고 다단계 작업 및 복잡한 접촉이 많은 조작도 다룰 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.