QUICK REVIEW

[논문 리뷰] Robustness via Retrying: Closed-Loop Robotic Manipulation with Self-Supervised Learning

Frederik Ebert, Sudeep Dasari|arXiv (Cornell University)|2018. 10. 06.

Domain Adaptation and Few-Shot Learning인용 수 41

한 줄 요약

닫힌 루프 시각적 MPC 프레임워크를 제안하며, 자기지도 학습 이미지 정합을 사용해 목표를 추적하고 재시도를 가능하게 하여 원시 이미지에서 장기 제어를 자동으로 수집된 데이터로 달성합니다.

ABSTRACT

Prediction is an appealing objective for self-supervised learning of behavioral skills, particularly for autonomous robots. However, effectively utilizing predictive models for control, especially with raw image inputs, poses a number of major challenges. How should the predictions be used? What happens when they are inaccurate? In this paper, we tackle these questions by proposing a method for learning robotic skills from raw image observations, using only autonomously collected experience. We show that even an imperfect model can complete complex tasks if it can continuously retry, but this requires the model to not lose track of the objective (e.g., the object of interest). To enable a robot to continuously retry a task, we devise a self-supervised algorithm for learning image registration, which can keep track of objects of interest for the duration of the trial. We demonstrate that this idea can be combined with a video-prediction based controller to enable complex behaviors to be learned from scratch using only raw visual inputs, including grasping, repositioning objects, and non-prehensile manipulation. Our real-world experiments demonstrate that a model trained with 160 robot hours of autonomously collected, unlabeled data is able to successfully perform complex manipulation tasks with a wide range of objects not seen during training.

연구 동기 및 목표

원시 RGB 관찰값에서의 장기 로봇 조작을 자기지도 학습을 사용하여 가능하게 한다.
예측 오차에도 불구하고 목표와의 정렬을 유지하여 로봇이 작업을 지속적으로 재시도하도록 한다.
사람의 감독 없이 자동 수집된 데이터로 비자유적 및 자유형 조작을 모두 학습한다.
이미지-이미지 정합을 기반으로 한 굴절 계획 비용을 제공하여 비디오 예측 기반 제어를 안내한다.

제안 방법

행동 시퀀스에 조건화된 미래 관찰을 예측하는 비디오 예측 모델을 학습한다.
현재 관찰을 시작점 및 목표 이미지에 정렬하는 자기지도 이미지 정합 모델을 개발한다.
등록된 현재 위치와 목표 위치 사이의 가중 픽셀 거리로 정의되고 정합 품질에 따라 업데이트되는 계획 비용을 정의한다.
실세계의 각 단계에서 재계획을 수행하는 모델 예측 제어를 사용하여 재시도를 가능하게 한다.
다중 시야(스테레오) 설정으로 확장하여 3D 목표를 정의하고 시야 간 비용을 결합한다.
단순한 파지 반사를 도입하여 자유형 및 비자유형 조작을 결합 가능하게 한다.

실험 결과

연구 질문

RQ1원시 시각 관찰의 자기지도 예측 모델이 시간적으로 확장된 로봇 조작 작업에 사용될 수 있는가?
RQ2학습된 정합 기반 비용으로 지속적인 재시도가 장기 목표 재배치 작업의 성공률을 향상시키는가?
RQ3계획 비용으로 이미지 정합을 OpenCV 추적기나 예측자 전파와 비교할 때의 영향은 무엇인가?
RQ4여러 카메라로 확장하고 3D 목표 지정을 가능하게 할 수 있는가?

주요 결과

방법	단기	장기
Visual MPC + predictor propagation	83%	20%
Visual MPC + OpenCV tracking	83%	45%
Visual MPC + registration network (Ours)	83%	66%

정합 기반 계획 비용은 예측기 전파 및 OpenCV 추적기와 비교할 때 시간적으로 확장된 조작 작업에서 성능을 크게 향상시킨다.
정합 모듈에 의해 가능해진 폐쇄 루프 재시도는 장거리 밀기 작업에서 성공률을 높인다.
본 방법은 감독 없이도 순수한 자동 데이터로 비자유형 및 결합형 자유형 조작을 모두 가능하게 한다.
보지 않은 물체가 포함된 장거리 밀기 벤치마크에서 정합 기반 시각적 MPC는 성공률 측면에서 OpenCV 기반 추적 및 예측자 전파를 능가했다.
여러 카메라 뷰를 결합하면 3D 목표를 정의하고 단일 시야에서 모호한 작업을 해결할 수 있다.
데이터 수집 중 간단한 파지 반사를 통해 파지 기술을 학습하고 밀기와 함께 더 다재다능한 조작을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.