QUICK REVIEW

[논문 리뷰] Task-Embedded Control Networks for Few-Shot Imitation Learning

Stephen James, Michael Bloesch|arXiv (Cornell University)|2018. 10. 08.

Domain Adaptation and Few-Shot Learning인용 수 35

한 줄 요약

이 논문은 시각적 관찰에서 시뮬레이션된 작업의 압축되고 특징적인 표현을 생성하기 위해 작업 임bedding 네트워크를 사용하는 메타-모방 학습 프레임워크인 작업 통합 제어 네트워크(TecNets)를 제안한다. 이 방법은 이러한 임베딩에 조건을 부여함으로써 소수의 샘플로도 시각-운동 정책 학습을 가능하게 하며, 추가적인 실제 세계 미세조정 없이 시뮬레이션에서 실제 세계로의 전이 후 1-shot 성공률 72.97%를 달성한다.

ABSTRACT

Much like humans, robots should have the ability to leverage knowledge from previously learned tasks in order to learn new tasks quickly in new and unfamiliar environments. Despite this, most robot learning approaches have focused on learning a single task, from scratch, with a limited notion of generalisation, and no way of leveraging the knowledge to learn other tasks more efficiently. One possible solution is meta-learning, but many of the related approaches are limited in their ability to scale to a large number of tasks and to learn further tasks without forgetting previously learned ones. With this in mind, we introduce Task-Embedded Control Networks, which employ ideas from metric learning in order to create a task embedding that can be used by a robot to learn new tasks from one or more demonstrations. In the area of visually-guided manipulation, we present simulation results in which we surpass the performance of a state-of-the-art method when using only visual information from each demonstration. Additionally, we demonstrate that our approach can also be used in conjunction with domain randomisation to train our few-shot learning ability in simulation and then deploy in the real world without any additional training. Once deployed, the robot can learn new tasks from a single real-world demonstration.

연구 동기 및 목표

모델이 작업별 적응 후 이전에 학습한 작업을 기억을 상실하거나 메타학습 능력을 상실하는 지속적인 소수의 모방 학습의 부족을 해결한다.
작업별 재학습이 필요 없이 단 한 개 또는 몇 개의 시각적 시연만으로도 데이터 효율적인 신규 조작 작업 학습을 가능하게 한다.
무한한 수의 작업을 학습하면서 치명적인 기억 상실 없이 확장 가능한 메타학습 프레임워크를 개발한다.
실제 세계에서의 미세조정 없이도 시뮬레이션에서 완전히 학습된 소수의 모방 학습 정책을 실제 세계에 성공적으로 구현할 수 있도록 한다.
종합적인 아키텍처를 개발하여 작업 임베딩과 제어 정책을 동시에 최적화함으로써 종단 간 시각-운동 제어를 실현한다.

제안 방법

단일 시범의 RGB 관찰을 압축되고 작업에 특화된 임베딩(이를 '문장'으로 지칭)으로 압축하기 위해 작업 임베딩 네트워크를 사용한다.
현재 관찰과 정적 작업 임베딩에 조건을 부여하여 제어 네트워크가 닫힌 루프 방식으로 동작을 생성한다.
새로운 작업에 빠르게 적응하기 위해 메타학습 목적함수를 사용하여 작업 임베딩 및 제어 네트워크를 함께 훈련한다.
시뮬레이션 훈련 중 도메인 랜덤라이제이션을 적용하여 정책의 강건성을 향상시키고, 성공적인 시뮬레이션에서 실제 세계로의 전이를 가능하게 한다.
시범에서 시각적 관찰(RGB 이미지)만을 사용하며, 상태나 동작 레이블에 의존하지 않는다.
거리 기반 학습 원리를 활용하여 유사한 작업(예: 유사한 용기에 넣는 것)이 잠재 공간 내에서 가까이 위치하도록 보장한다.

실험 결과

연구 질문

RQ1한 개의 신경망 아키텍처가 다양한 조작 작업의 수많은 수많은 작업에 걸쳐 지식을 학습하고 유지하면서 기억 상실 없이 작동할 수 있는가?
RQ2작업 임베딩 메커니즘이 시각적 유사성에 기반해 새로운, 알려지지 않은 작업으로의 제로샷 또는 소수의 샘플로 일반화할 수 있는가?
RQ3완전히 시뮬레이션에서 학습된 소수의 모방 학습 정책이 실제 세계에 배포된 후 실제 세계에서의 미세조정 없이 성공적으로 구현될 수 있는가?
RQ4제안된 방법이 시각적 시범만을 사용할 때 최고 수준의 메타-모방 학습 기준보다 뛰어난 성능을 보일 수 있는가?
RQ5학습 데이터가 특정 물체 클래스(예: Bowls)에 국한된 경우에도, 다양한 물체 형태와 용기 유형을 가진 실제 세계 작업으로 일반화할 수 있는가?

주요 결과

TecNets는 시뮬레이션에서 훈련된 후 실제 세계의 놓기 작업에서 실시간으로의 배포 후 어떤 실제 세계의 미세조정 없이도 1-shot 성공률 72.97%를 달성한다.
시뮬레이션에서 시각 정보만을 사용할 경우, 기존 최고 수준의 메타-모방 학습 기준(MIL)을 초월하며, 1-shot 및 소수의 샘플 설정 모두에서 높은 성공률 기록을 달성한다.
모델은 무한한 수의 작업에 걸쳐 소수의 샘플 학습 능력을 유지하며, 지속적인 학습 중에 치명적인 기억 상실을 겪지 않는다.
도메인 랜덤라이제이션의 적용으로 성공적인 시뮬레이션에서 실제 세계로의 전이가 가능해졌으며, 훈련 시 밥그릇 외의 실제 세계 물체(컵, 접시, 냄비 등)에도 정책이 일반화된다.
실패 사례는 주로 물체의 형태 차이(예: 컵과 접시)에서 기인했으며, 이는 모델의 성능가 분포 이격에 민감함을 시사한다.
학습된 작업 임베딩 공간은 의미 있는 구조를 보이며, 유사한 작업(예: 유사한 용기에 넣는 것)이 잠재 공간 내에서 서로 가까이 군집되어 있음을 시각화 자료에서 확인할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.