QUICK REVIEW

[논문 리뷰] One-Shot Visual Imitation Learning via Meta-Learning

Chelsea Finn, Tianhe Yu|arXiv (Cornell University)|2017. 09. 14.

Human Pose and Action Recognition참고 문헌 27인용 수 267

한 줄 요약

이 논문은 그래디언트 기반 메타학습과 모방학습을 결합하여 로봇이 단일 시각적 시연으로 새로운 기술을 습득하도록 하고, 원시 픽셀 입력은 물론 비디오 전용 시연에도 확장 가능하게 한다.

ABSTRACT

In order for a robot to be a generalist that can perform a wide range of jobs, it must be able to acquire a wide variety of skills quickly and efficiently in complex unstructured environments. High-capacity models such as deep neural networks can enable a robot to represent complex skills, but learning each skill from scratch then becomes infeasible. In this work, we present a meta-imitation learning method that enables a robot to learn how to learn more efficiently, allowing it to acquire new skills from just a single demonstration. Unlike prior methods for one-shot imitation, our method can scale to raw pixel inputs and requires data from significantly fewer prior tasks for effective learning of new skills. Our experiments on both simulated and real robot platforms demonstrate the ability to learn new tasks, end-to-end, from a single visual demonstration.

연구 동기 및 목표

많은 기술을 빠르게 학습하는 일반 목적 로봇의 필요성을 제시한다.
다른 작업 간 경험 재사용으로 데이터 효율성을 향상시킨다.
원시 시각 입력에서의 엔드-투-엔드 학습을 가능하게 하여 빠른 적응을 달성한다.
단일 시연으로 원샷 모방을 가능하게 하는 메타학습 프레임워크를 개발한다.
시뮬레이션 및 물리적 로봇에서도 실제 응용 가능성을 입증한다.

제안 방법

모델 불가지론적 메타학습(MAML)을 시각 입력으로부터의 모방 학습으로 확장한다.
시연을 사용하여 한 번의 그래디언트 업데이트로 새로운 작업에 적응하는 정책을 학습한다.
최종 계층이 사실상 메타학습된 내부 목적이 되는 투-헤드 아키텍처를 도입한다.
그래디언트 기반 적응을 향상시키기 위한 바이어스 변환을 도입한다.
적응을 위한 학습/검증 분할을 시뮬레이션하기 위해 작업당 시연 쌍으로 메타 학습한다.
전적으로 두-헤드 설정을 통해 전문가 행동 없이도 적응을 가능하게 하는 손실 함수를 선택적으로 학습한다.

실험 결과

연구 질문

RQ1원시 픽셀 입력으로부터의 원샷 모방 학습이 단일 시각적 시연으로 보지 않은(unseen) 작업에 적응할 수 있는가?
RQ2메타-모방 학습(MIL)이 데이터셋 규모와 입력 모달리티(비전 대 비전)에 걸쳐 기존의 원샷 모방 방법과 어떻게 비교되는가?
RQ3전문가 행동이 포함되지 않은 시연(비디오 전용 시연)으로부터 학습할 수 있는가?
RQ4MIL이 실제 이미지와 물체를 다루는 실제 로봇 작업으로 확장될 수 있는가?

주요 결과

MIL은 새로운 물체와 목표에 적응해야 하는 시각 기반 작업에서 기존의 원샷 모방 방법을 능가한다.
보유되지 않은 물체를 포함한 시뮬레이션 밀기에서, MIL은 비디오+상태+동작 입력이 주어졌을 때 최대 85.81%의 원샷 성공을 달성하며 베이스라인을 능가한다.
비디오 전용 시연으로도 MIL은 밀기 작업에서 68.33%의 원샷 성공률을 달성한다.
PR2 로봇을 사용한 실제 배치 작업에서 MIL은 단일 시연으로 보유된 물품을 올바른 컨테이너에 배치하는 데 90%의 원샷 성공률에 도달한다.
비디오 전용 시연이 있는 MIL은 여전히 가능성이 있으며(배치에서 68.33%), 추가 데이터나 모달리티에서 이점을 얻는다.
투-헤드 및 바이어스 변환 변형은 그래디언트 기반 적응의 안정성과 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.