QUICK REVIEW

[논문 리뷰] End-to-End Training of Deep Visuomotor Policies

Sergey Levine, Chelsea Finn|arXiv (Cornell University)|2015. 04. 02.

Reinforcement Learning in Robotics참고 문헌 80인용 수 1,390

한 줄 요약

이 논문은 강화학습을 지도학습으로 전환하기 위해 가이드드 정책 검색을 사용하여 원시 RGB 이미지를 직접 로봇 모터 토크로 매핑하는 딥 컨volution 신경망(CNN)의 엔드 투 엔드 훈련을 제안한다. 이 방법은 시각과 제어를 동시에 최적화함으로써 실제 조작 작업—예를 들어 캡을 조이는 것, 블록을 삽입하는 것, 행거를 매는 것—에서 뛰어난 성능과 일반화 능력을 달성한다. 이는 별도로 훈련된 시각 및 제어 모듈보다 우수한 성능을 발휘한다.

ABSTRACT

Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-to-end provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a partially observed guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.

연구 동기 및 목표

시각과 제어를 공동으로 엔드 투 엔드로 훈련할 경우 로봇 조작 작업에서 성능 향상이 이루어지는지 조사하는 것.
정책 검색에서 수작업으로 설계된 구성 요소—시각, 상태 추정, 저수준 제어—에 대한 의존도를 줄이는 것.
실제 로봇 환경에서 깊이 신경망을 사용하여 원시 영상 관측값에서 직접 모터 토크로의 매핑을 가능하게 하는 것.
정밀한 시각적 조율과 접촉 역학을 요구하는 작업에서 정책의 일반화 능력과 강건성을 향상시키는 것.
제한된 실제 데이터로도 효과적인 훈련이 가능한 지도학습 미세조정을 통해 가이드드 정책 검색이 성공적으로 작용하는지 보여주는 것.

제안 방법

정책은 92,000개의 파라미터를 가진 7층의 CNN으로 표현되며, 향상된 공간적 추론을 위한 새로운 공간적 특징점 변환을 포함한다.
가이드드 정책 검색은 모델-프리 궤적 최적화 방법을 반복적으로 사용하여 전문가 시뮬레이션을 생성함으로써 정책 검색을 지도학습으로 전환한다.
알고리즘은 Bregman ADMM(BADMM)로 형식화되어 국소 최적해로 수렴함을 보장한다.
훈련 중에는 전체 상태(예: 물체의 위치)를 관측할 수 있지만, 테스트 시에는 원시 RGB 영상만을 사용하여 새로운 구성에 대한 일반화를 가능하게 한다.
훈련에는 확률적 경사 하강법을 사용하며, L2 거리, 정밀도에 대한 로그 페널티, 제어 노력 정규화를 포함하는 비용 함수를 사용한다.
정책은 PR2 로봇과 고정된 카메라를 사용하여 5초 분량의 에피소드와 20 Hz의 제어 주파수로 수집된 실제 상호작용 데이터를 기반으로 훈련된다.

실험 결과

연구 질문

RQ1시각 및 제어 구성 요소를 공동으로 엔드 투 엔드로 훈련할 경우 별도로 훈련하는 것보다 더 뛰어난 성능을 달성할 수 있는가?
RQ2딥 CNN을 사용하여 원시 영상 관측값을 활용할 경우 실제 로봇 조작 환경에서 강건하고 일반화 가능한 비주얼모터 정책를 학습할 수 있는가?
RQ3제한된 실제 데이터로도 가이드드 정책 검색이 고차원 정책 검색을 효과적으로 지도학습으로 전환할 수 있는가?
RQ4공동 훈련이 새로운 물체 위치 및 구성으로의 일반화 능력을 얼마나 향상시키는가?
RQ5성공률 및 일관성 측면에서 기존 정책 검색 방법에 비해 제안된 방법은 어떻게 비교되는가?

주요 결과

엔드 투 엔드로 훈련된 비주얼모터 정책는 별도로 훈련된 시각 및 제어 구성 요소보다 더 높은 성공률과 더 나은 일반화 능력을 보였다.
이 방법은 캡을 조이는 것, 형상 분류기 안에 블록을 삽입하는 것, 행거를 매는 것과 같은 복잡한 작업을 모두 원시 상호작용 데이터 약 수십 분으로 성공적으로 학습하였다.
시뮬레이션 비교 결과, 가이드드 정책 검색은 고차원 신경망 정책를 훈련할 때 다수의 기존 정책 검색 방법보다 뛰어난 성능을 보였다.
공간적 특징점 변환의 포함으로 오버피팅이 감소하고 CNN 정책의 공간적 추론 능력이 향상되었다.
로그 페널티 항목을 포함한 비용 함수는 특히 botlle cap 조임과 같은 작업에서 정확한 위치 배치를 가능하게 하였다.
테스트 시 전체 상태 정보가 필요 없이도 정책은 새로운 구성에 일반화되었으며, 이는 새로운 초기 조건에 대한 강건성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.