QUICK REVIEW

[논문 리뷰] Sim-to-Real Robot Learning from Pixels with Progressive Nets

Andrei A. Rusu, Matej Vecerík|arXiv (Cornell University)|2016. 10. 13.

Reinforcement Learning in Robotics인용 수 109

한 줄 요약

이 논문은 progressive networks를 사용하여 시뮬레이션에서 실제 로봇으로 end-to-end, pixel-to-action 정책을 이전시키는 방법을 보여주며, 희박한 보상에서도 실제 하드웨어에서 빠른 학습이 가능하도록 한다.

ABSTRACT

Applying end-to-end learning to solve complex, interactive, pixel-driven control tasks on a robot is an unsolved problem. Deep Reinforcement Learning algorithms are too slow to achieve performance on a real robot, but their potential has been demonstrated in simulated environments. We propose using progressive networks to bridge the reality gap and transfer learned policies from simulation to the real world. The progressive net approach is a general framework that enables reuse of everything from low-level visual features to high-level policies for transfer to new tasks, enabling a compositional, yet simple, approach to building complex skills. We present an early demonstration of this approach with a number of experiments in the domain of robot manipulation that focus on bridging the reality gap. Unlike other proposed approaches, our real-world experiments demonstrate successful task learning from raw visual input on a fully actuated robot manipulator. Moreover, rather than relying on model-based trajectory optimisation, the task learning is accomplished using only deep reinforcement learning and sparse rewards.

연구 동기 및 목표

깊은 강화학습으로 학습된 end-to-end pixel-to-action 로봇 제어에서 현실 차이를 동기부여하고 해결한다.
학습된 특징과 정책을 작업과 도메인 전체에서 재사용하기 위한 transfer-learning 프레임워크로써 progressive networks를 제안한다.
희박한 보상을 가진 완전히 작동하는 로봇 매니퓰레이터에서 progressive nets가 학습을 가속시킨다는 것을 실제 로봇 실험을 통해 보여준다.

제안 방법

RGB 입력과 관절 속도 출력으로 시뮬레이션에서 학습된 actor-critic 네트워크를 사용한다.
시뮬레이션 열로부터 측면 연결을 갖는 실제 로봇 작업용 새로운 열(네트워크)을 인스턴스화한다.
실제 로봇 출력층을 시뮬레이션 열과 대칭되도록 초기화하여 탐색에 편향을 준다.
시뮬레이션-실제 차이를 수용하기 위해 열의 용량을 다르게 허용한다.
작업과 섞음에 걸쳐 평가하여 progressive transfer와 finetuning 및 from-scratch learning 간의 비교를 수행한다.
proprioception를 사용하는 열을 추가하고 측면 연결을 통해 시각 특징을 재활용하여 proprioceptive 입력으로 확장 가능성을 시연한다.

실험 결과

연구 질문

RQ1pixel inputs와 sparse rewards로 학습될 때 progressive networks가 시뮬레이션에서 실험된 학습된 정책을 실제 로봇으로 이전시킬 수 있는가?
RQ2finetuning이나 from-scratch learning과 비교할 때 progressive networks가 더 빠르고 안정적인 실제 로봇 학습을 가능하게 하는가?
RQ3입력 모달리티를 추가하거나 변경하는 것이 (예: proprioception) progressive network 프레임워크 내에서 이전 성능에 어떤 영향을 미치는가?
RQ4환경 교란 및 커리큘럼과 같은 작업 변형에 대해 이 접근법이 로버스트한가?

주요 결과

progressive 두 번째 열이 finetuned 열이나 from-scratch baseline보다 실제 로봇 성능이 더 높게 나타난다(34 points).
무작위로 초기화된 열은 실제 로봇에서 학습에 실패하여 이전 구축(transfer scaffolding)의 필요성을 보여준다.
환경 변화에서도 progressive networks는 finetuning보다 더 큰 안정성과 더 높은 최종 성능을 보여준다.
proprioceptive 입력을 새 열로 추가하되 측면 연결을 통해 시각 특징을 재사용하면 동적 작업으로의 이전이 개선된다.
simulation-trained features를 활용하여 progressive nets를 통한 이전은 from-scratch training에 비해 필요한 실제 로봇 학습 시간을 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.