Skip to main content
QUICK REVIEW

[논문 리뷰] One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning

Tianhe Yu, Chelsea Finn|arXiv (Cornell University)|2018. 02. 05.
Robot Manipulation and Learning참고 문헌 56인용 수 111
한 줄 요약

이 논문은 도메인 적응 메타러닝 접근법을 제시하여 로봇이 한 인간의 단일 비디오에서 새로운 작업을 모방하도록 하고, 작업 간의 선행 인간 및 로봇 시연을 활용합니다.

ABSTRACT

Humans and animals are capable of learning a new behavior by observing others perform the skill just once. We consider the problem of allowing a robot to do the same -- learning from a raw video pixels of a human, even when there is substantial domain shift in the perspective, environment, and embodiment between the robot and the observed human. Prior approaches to this problem have hand-specified how human and robot actions correspond and often relied on explicit human pose detection systems. In this work, we present an approach for one-shot learning from a video of a human by using human and robot demonstration data from a variety of previous tasks to build up prior knowledge through meta-learning. Then, combining this prior knowledge and only a single video demonstration from a human, the robot can perform the task that the human demonstrated. We show experiments on both a PR2 arm and a Sawyer arm, demonstrating that after meta-learning, the robot can learn to place, push, and pick-and-place new objects using just one video of a human performing the manipulation.

연구 동기 및 목표

  • 도메인 간 차이가 있는 상태에서도 원시 인간 비디오로부터의 원샷 모방 방법을 개발한다.
  • 다양한 작업에 걸친 선행 인간 및 로봇 시연을 활용하여 이전 가능한 정책 선행을 학습한다.
  • 새로운 작업에 대해 로봇 데이터 없이도 인간 한 시연만으로 신속하게 적응할 수 있도록 한다.

제안 방법

  • 도메인 시프트를 처리하고 인간의 행동이 없는 인간 비디오에서 학습하는 MAML 확장.
  • 작업 간의 paired 인류 및 로봇 시연으로 초기화와 학습된 적응 손실 L_ψ를 학습한다.
  • 비디오 트릭을 처리하고 그래디언트 업데이트를 안내하기 위해 1D 시간적 합성곱으로 학습된 적응 목표 L_ψ를 학습한다.
  • RGB 입력을 행동 분포로 매핑하는 정책을 사용하고, 착안은 공간 소프트-아그맥(spatial soft-argmax)과 행동의 혼합 밀도 등을 이용한다.
  • 메타 테스트 중 학습된 초기화에서 한 인간 시연을 사용해 로봇 행동으로 적응한다.
  • 적응을 학습된 에너지 용어로 MAP 추론으로 프레이밍하는 확률적 해석을 제공한다.

실험 결과

연구 질문

  • RQ1제안된 도메인 적응 메타러닝이 물체 및 장면 변 variations에서 한 인간 비디오 하나로 새로운 작업을 로봇이 모방할 수 있게 하는가?
  • RQ2주어진 접근법이 훈련 중에 보지 못한 다른 시점, 배경 및 시연자에 일반화되는가?
  • RQ3비디오 정보를 활용하기 위해 시간당 손실 대신 시간적 적응 목표가 어떻게 비교되는가?
  • RQ4다른 로봇 플랫폼 및 시연 유형(키네스테틱/원격 조작) 간에 방법이 전달 가능한가?

주요 결과

  • 메타 학습 후 인간 및 로봇 데이터로의 학습으로 새로운 물체와 작업에서 강건한 원샷 모방.
  • 시간적 적응 목표가 선형의 시간별 손실보다 현저히 우수하여 비디오 시연에서의 학습이 더 잘 이루어짐.
  • PR2에서 DAML 시간적 손실은 배치에서 높은 성공률을 달성: 93.8%, 88.9%, 80.0%.
  • Baseline DA-LSTM 및 컨텍스트 정책은 제한된 시연에서 어려움을 겪으며 제안된 시간적 손실의 데이터 효율성을 강조.
  • 메소드는 큰 도메인 시프트에서도 효과가 남아 있으며, 다른 카메라 시점 및 배경을 포함하지만 배경 변화가 성능을 감소시킬 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.