Skip to main content
QUICK REVIEW

[논문 리뷰] Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control

Frederik Ebert, Chelsea Finn|arXiv (Cornell University)|2018. 12. 03.
Reinforcement Learning in Robotics참고 문헌 42인용 수 263
한 줄 요약

비지도 학습 기반의 자기-감독형 모델 기반 심층 강화학습 접근법으로, 비지도 상호작용에서 예측 비디오 모델을 학습하고 MPC를 활용한 계획으로 픽셀 기반 목표, 목표 이미지, 또는 목표 분류기를 사용해 다양하고 보이지 않는 작업과 물체를 달성하는 비전 기반 로봇 조작.

ABSTRACT

Deep reinforcement learning (RL) algorithms can learn complex robotic skills from raw sensory inputs, but have yet to achieve the kind of broad generalization and applicability demonstrated by deep learning methods in supervised domains. We present a deep RL method that is practical for real-world robotics tasks, such as robotic manipulation, and generalizes effectively to never-before-seen tasks and objects. In these settings, ground truth reward signals are typically unavailable, and we therefore propose a self-supervised model-based approach, where a predictive model learns to directly predict the future from raw sensory readings, such as camera images. At test time, we explore three distinct goal specification methods: designated pixels, where a user specifies desired object manipulation tasks by selecting particular pixels in an image and corresponding goal positions, goal images, where the desired goal state is specified with an image, and image classifiers, which define spaces of goal states. Our deep predictive models are trained using data collected autonomously and continuously by a robot interacting with hundreds of objects, without human supervision. We demonstrate that visual MPC can generalize to never-before-seen objects---both rigid and deformable---and solve a range of user-defined object manipulation tasks using the same model.

연구 동기 및 목표

  • 외부 보상이나 리셋 없이 원시 픽셀 입력으로부터 로봇 조작을 가능하게 한다.
  • 비지도 상호작용으로부터 순방향 예측 모델을 학습하여 보지 못한 물체와 작업으로 일반화한다.
  • 계획 솔루션을 위한 유연한 목표 지정 방법(픽셀, 목표 이미지, 또는 분류기)을 제공한다.
  • 단일 예측 모델을 사용하여 잡다한 환경, 변형 가능한 물체 및 큰 교란에 대한 강건성을 시연한다.

제안 방법

  • 동작에 조건화된 미래 프레임을 예측하는 비디오 예측 모델을 학습하며, 변환 기반 아키텍처(DNA/SNA)를 사용한다.
  • 샘플링 기반의 그래디언트-프리 플래너를 갖춘 모델 예측 제어를 사용해 horizon T 동안의 계획 비용을 최소화하는 동작을 선택한다.
  • 세 가지 계획 비용 형식을 사용: 지정된 목표에 대한 픽셀 간 거리, 시작/목표 프레임에 대한 이미지-대-이미지 정합을 이용한 등록 기반 비용, 메타 학습(CAML-MAML)을 통해 학습된 분류기 기반 목표.
  • 시차 건너뛰기 연결(SNA)을 적용해 가려짐을 처리하고 다단계 픽셀 모션 예측을 향상시킨다.
  • 무작위로 샘플링된 프레임 간의 자기지도 흐름 추정으로 비디오 예측기와 함께 등록 네트워크를 학습한다.
  • 비용 함수 간의 trade-off를 논의하고 목표 지정 및 강건성에 대한 실용적인 지침을 제시한다.

실험 결과

연구 질문

  • RQ1단일 자기지도식 순방향 비디오 예측 모델이 비지도 로봇 상호작용으로 학습되어 다양한 보지 못한 조작 작업에 대해 계획 기반 제어를 가능하게 하는가?
  • RQ2다른 목표 지정 메커니즘(픽셀-거리, 등록, 목표 분류기)이 성능, 강건성 및 일반화에 어떤 영향을 미치는가?
  • RQ3하나의 모델로 가려짐, 혼잡, 변형 가능한 물체 및 큰 교란을 처리할 수 있는가?
  • RQ4비전 기반 로봇 제어에서 일반화 및 데이터 효율성을 극대화하기 위한 효과적인 학습 및 계획 전략은 무엇인가?

주요 결과

  • 비지도 상호작용으로 학습된 단일 예측 모델이 실제 로봇에서 보지 못한 물체와 작업에 대해 계획 기반 제어를 가능하게 한다.
  • 픽셀 기반 계획은 MPC를 통해 픽셀 거리, 등록된 목표 이미지, 또는 분류기 기반 목표를 사용해 물체 조작을 수행할 수 있다.
  • 변환 기반 비디오 예측기(DNA/SNA)는 가려짐을 처리하고 긴 기간에 걸친 예측을 견고하게 하는 데 기여한다.
  • 등록 기반 비용은 현재 뷰를 시작/목표 프레임에 정합시킴으로써 계획 정확도를 향상시키며, 예측과 함께 학습된 자기지도 등록 모델이 있다.
  • 분류기 기반 목표는 추상적 작업 지시를 가능하게 하며 CAML/MAML을 통한 소수의 양성 예시로 학습될 수 있다.
  • 단일 모델과 다양한 작업으로 강건성 있는 로봇 조작(강체/변형 물체, 혼잡, 큰 교란)을 시연한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.