Skip to main content
QUICK REVIEW

[논문 리뷰] The Ingredients of Real-World Robotic Reinforcement Learning

Henry Zhu, Justin Yu|arXiv (Cornell University)|2020. 04. 27.
Robot Manipulation and Learning참고 문헌 39인용 수 28
한 줄 요약

이 논문은 인간이 설계한 보상, 리셋, 장비 없이도 원시 시각 관측에서 다재다능한 조작 기술을 학습할 수 있는 실세계 로봇 강화학습 시스템 R3L을 제안한다. 비감독적 표현 학습과 무작위 외란 제어기를 조합함으로써, 실세계의 3지부 로봇 손에서 자율적이고 연속적인 학습을 실현하였으며, 인간 간섭 없이도 다양한 초기 상태에서 밸브 회전 및 구슬 조작과 같은 작업을 성공적으로 마스터하였다.

ABSTRACT

The success of reinforcement learning for real world robotics has been, in many cases limited to instrumented laboratory scenarios, often requiring arduous human effort and oversight to enable continuous learning. In this work, we discuss the elements that are needed for a robotic learning system that can continually and autonomously improve with data collected in the real world. We propose a particular instantiation of such a system, using dexterous manipulation as our case study. Subsequently, we investigate a number of challenges that come up when learning without instrumentation. In such settings, learning must be feasible without manually designed resets, using only on-board perception, and without hand-engineered reward functions. We propose simple and scalable solutions to these challenges, and then demonstrate the efficacy of our proposed system on a set of dexterous robotic manipulation tasks, providing an in-depth analysis of the challenges associated with this learning paradigm. We demonstrate that our complete system can learn without any human intervention, acquiring a variety of vision-based skills with a real-world three-fingered hand. Results and videos can be found at https://sites.google.com/view/realworld-rl/

연구 동기 및 목표

  • 실세계 환경에서 인간 간섭 없이 지속적이고 자율적인 로봇 강화학습을 가능하게 하기 위해.
  • 수동으로 설계된 보상 함수, 수동 리셋, 환경 장비 의존도를 제거하기 위해.
  • 원시 감각 입력과 자기지도 보상 신호에서 학습하는 확장 가능한 시스템을 개발하기 위해.
  • 비에피소드적, 실세계 설정에서의 탐색 및 정책 학습 과제를 해결하기 위해.

제안 방법

  • 원시 RGB 이미지에서 의미 있는 상태 표현을 추출하기 위해 비감독적 표현 학습(VAE)을 사용한다.
  • 사전 정의된 상태 없이 연속적 탐색을 가능하게 하기 위해, 무작위 외란 제어기를 활용해 리셋을 시뮬레이션한다.
  • 보상 엔지니어링 없이 쉽게 확보할 수 있는 목표 이미지에서 보상 함수를 학습하기 위해 VICE(비전 기반 역방향 제어)를 활용한다.
  • 자기지도 보상과 원시 관측에서 SAC(Soft Actor-Critic)를 사용해 정책을 훈련함으로써 엔드 투 엔드 학습을 가능하게 한다.
  • 에피소드 리셋 없이도 다양한 초기 설정에서 일반화 가능한 목표 조건 정책을 도입한다.
  • 오직 RGB 카메라만을 입력으로 사용하는 실세계 D’Claw 로봇 손에 시스템을 구현한다.

실험 결과

연구 질문

  • RQ1인간이 설계한 보상 함수나 환경 장비 없이도 실세계에서 복잡한 조작 기술을 학습할 수 있는 방법은 무엇인가?
  • RQ2수동 리셋 없이도 비에피소드적, 연속적인 실세계 훈련 환경에서 효과적인 탐색 및 정책 학습을 가능하게 하는 메커니즘은 무엇인가?
  • RQ3원시 픽셀에서의 비감독적 표현 학습이 다재다능한 조작 작업을 위한 안정적인 정책 학습을 가능하게 할 수 있는가?
  • RQ4고정 또는 목표 기반 리셋 전략에 비해, 무작위 외상 제어기는 샘플 효율성과 성능 안정성 측면에서 어떻게 비교되는가?
  • RQ5지상 진실 상태 또는 보상 신호 없이도, 자기지도 지도와 원시 감각 입력만으로 얼마나 높은 수준의 학습이 가능한가?

주요 결과

  • R3L 시스템은 인간 간섭 없이도 실세계 로봇 손에서 다재다능한 조작 작업—밸브 회전 및 구슬 조작—을 성공적으로 학습하였다.
  • 외상 제어기를 사용해 훈련된 정책는 거의 모든 초기 설정에서 성공을 거두었으며, VICE 베이스라인에 비해 뛰어난 성능을 보였다. VICE는 대부분의 시작 상태에서 실패하였다.
  • 밸브 회전 작업의 경우, 17시간의 실세계 훈련 후 성공적인 정책 수렴을 달성하여 복잡한 작업에서의 확장성을 입증하였다.
  • 구슬 조작 작업의 경우, 5시간의 훈련 후 기능적인 정책을 학습하였으며, 평가 롤아웃 결과 다양한 초기 상태에서 일관된 성공을 보였다.
  • 정책는 초기 상태 분포의 이동에도 강건하게 일반화되었으며, 임의의 시작 위치에서 평가해도 잘 작동하였다.
  • 절단 실험을 통해 비감독적 표현 학습과 외상 제어기가 성능 향상에 필수적임을 확인하였으며, 실험에서 성공률가 크게 떨어지는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.