QUICK REVIEW

[논문 리뷰] Learning Latent Plans from Play

Corey Lynch, Mohi Khansari|arXiv (Cornell University)|2019. 03. 05.

Reinforcement Learning in Robotics참고 문헌 61인용 수 25

한 줄 요약

이 논문은 레이블이 없는 인간 원격 조작 플레이 데이터에서 비지도 학습을 통해 분리된 잠재 계획 공간을 학습하는 Play-LMP를 제안한다. 이는 단일 정책이 18개의 다양한 시각적 조작 작업에 걸쳐 일반화할 수 있도록 한다. 학습 중에 작업 레이블이 없음에도 불구하고 Play-LMP는 평균 85.5% 성공률을 기록하며, 18개의 전문가가 훈련한 정책들을 능가한다. 또한 지도 학습 기반 모델에서 관찰되지 않는 내성적 복구 및 재시도 행동을 보이며 뛰어난 내성적 저항성을 보인다.

ABSTRACT

Acquiring a diverse repertoire of general-purpose skills remains an open challenge for robotics. In this work, we propose self-supervising control on top of human teleoperated play data as a way to scale up skill learning. Play has two properties that make it attractive compared to conventional task demonstrations. Play is cheap, as it can be collected in large quantities quickly without task segmenting, labeling, or resetting to an initial state. Play is naturally rich, covering ~4x more interaction space than task demonstrations for the same amount of collection time. To learn control from play, we introduce Play-LMP, a self-supervised method that learns to organize play behaviors in a latent space, then reuse them at test time to achieve specific goals. Combining self-supervised control with a diverse play dataset shifts the focus of skill learning from a narrow and discrete set of tasks to the full continuum of behaviors available in an environment. We find that this combination generalizes well empirically---after self-supervising on unlabeled play, our method substantially outperforms individual expert-trained policies on 18 difficult user-specified visual manipulation tasks in a simulated robotic tabletop environment. We additionally find that play-supervised models, unlike their expert-trained counterparts, are more robust to perturbations and exhibit retrying-till-success behaviors. Finally, we find that our agent organizes its latent plan space around functional tasks, despite never being trained with task labels. Videos, code and data are available at learning-from-play.github.io

연구 동기 및 목표

비용이 많이 들고 작업에 특화된 전문가의 시범 데이터에 의존하지 않고도 다양한 일반 목적의 기술 레퍼토리를 로봇에서 확보하는 데 도전하는 것.
레이블이 없는 인간의 플레이 데이터로부터 비지도 학습을 통해 연속적인 상호작용 공간에서 작업에 종속되지 않는 제어를 가능하게 할 수 있는지 탐색하는 것.
플레이 데이터로부터 학습된 잠재 계획 공간이 작업 레이블 없이도 기능적 행동을 암묵적으로 정렬할 수 있는지 조사하는 것.
플레이 데이터로 훈련된 정책의 내성적 저항성과 일반화 능력이 전문가의 시범 데이터로 훈련된 정책과 비교하여 어떻게 되는지 평가하는 것.

제안 방법

레이블이 없는 플레이 데이터의 무작위 윈도우를 사용하여 목표 조건 정책을 훈련하며, 행동는 현재 상태, 목표 상태, 그리고 샘플링된 잠재 계획에 기반해 재구성된다.
두 개의 확률적 인코더를 사용한다: 전체 시퀀스에서 정확한 행동을 추론하는 계획 인식 인코더와, 초기 상태와 최종 상태에서 가능한 행동을 예측하는 계획 제안 인코더.
플레이 데이터에서 관찰된 실제 행동과 계획 제안 간의 KL 발산을 최소화하여 계획 제안과 실제 행동을 일치시킨다.
일관된 단일 모델을 사용하여 원시 픽셀에서 감각 정책을 학습하며, 다양한 테스트 시점 목표에 걸쳐 일반화된다.
계획 탐색과 정책 학습을 분리함으로써, 작업 감독 없이도 잠재 공간에서 기능적 행동을 탐지할 수 있도록 한다.
테스트 시점에 현재 상태, 목표 상태, 그리고 추론된 분포에서 샘플링된 단일 잠재 계획에 기반해 정책 추론을 조건화한다.

실험 결과

연구 질문

RQ1레이블이 없는 인간의 플레이 데이터로부터 비지도 학습을 통해 단일 정책이 작업에 특화되지 않은 시각적 조작 작업 전반에 걸쳐 일반화할 수 있는가?
RQ2플레이 데이터로부터 학습하는 것이 전문가가 지도 학습한 것과 비교해 실패 후 재시도 및 복구 기능을 갖춘 더 내성적인 정책을 만들어내는가?
RQ3작업 레이블 없이도 플레이 데이터로부터 학습된 잠재 계획 공간이 기능적 작업 카테고리(예: 서랍 조작, 단추 누르기) 중심으로 스스로 정렬되는가?
RQ4성공률과 데이터 효율성 측면에서 단일 플레이 지도 정책의 성능은 다수의 전문가가 훈련한 정책들과 비교해 어떻게 되는가?

주요 결과

단일 Play-LMP 정책은 18개의 사용자 지정 시각적 조작 작업에서 평균 85.5% 성공률을 기록하며, 평균 70.3% 성공률을 기록한 18개의 전문가가 훈련한 행동 복제 정책들을 능가한다.
단지 30분의 플레이 데이터만으로도 Play-LMP는 전문가가 훈련한 정책들이 3배 많은 데이터(90분)를 사용하고도 훈련된 정렬된 시범 데이터를 기반으로 한 정책들을 능가하는 71.8% 성공률을 달성한다.
Play-LMP 모델은 전문가가 지도 학습한 모델보다 초기 상태의 변동에 훨씬 더 내성적인 저항성을 보이며, 분포 이탈 상황에서도 일반화 능력이 향상됨을 보였다.
학습 중에 작업 레이블이 없음에도 불구하고 Play-LMP가 학습한 잠재 계획 공간은 서랍 조작, 단추 누르기와 같은 기능적 행동 중심으로 정렬되어 있으며, 이는 잠재된 작업 탐색이 가능함을 시사한다.
플레이 지도 정책은 실패 후 성공을 위한 재시도 행동을 보이며, 전문가가 지도 학습한 정책에서는 관찰되지 않는 행동을 보이며 더 높은 적응 능력을 보임을 시사한다.
Play-LMP에서 계획 탐색과 정책 학습을 분리함으로써, 기준 모델(Play-GCBC)에 비해 체계적인 성능 향상을 이끌었으며, 각 작업에서 최대 50%의 절대 성능 향상이 이루어졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.