QUICK REVIEW

[논문 리뷰] Transferring End-to-End Visuomotor Control from Simulation to Real World for a Multi-Stage Task

Stephen James, Andrew J. Davison|arXiv (Cornell University)|2017. 07. 07.

Robot Manipulation and Learning참고 문헌 34인용 수 132

한 줄 요약

본 논문은 도메인 무작위화(domain randomisation)를 사용하고 이미지와 관절 각도를 모터 속도로 매핑하는 CNN을 활용하여, 시뮬레이션에서 학습된 엔드-투-엔드 비주얼-모터 컨트롤을 다단계 작업에 대해 실제 세계로 이전하는 것을 시연한다.

ABSTRACT

End-to-end control for robot manipulation and grasping is emerging as an attractive alternative to traditional pipelined approaches. However, end-to-end methods tend to either be slow to train, exhibit little or no generalisability, or lack the ability to accomplish long-horizon or multi-stage tasks. In this paper, we show how two simple techniques can lead to end-to-end (image to velocity) execution of a multi-stage task, which is analogous to a simple tidying routine, without having seen a single real image. This involves locating, reaching for, and grasping a cube, then locating a basket and dropping the cube inside. To achieve this, robot trajectories are computed in a simulator, to collect a series of control velocities which accomplish the task. Then, a CNN is trained to map observed images to velocities, using domain randomisation to enable generalisation to real world images. Results show that we are able to successfully accomplish the task in the real world with the ability to generalise to novel environments, including those with dynamic lighting conditions, distractor objects, and moving objects, including the basket itself. We believe our approach to be simple, highly scalable, and capable of learning long-horizon tasks that have until now not been shown with the state-of-the-art in end-to-end robot control.

연구 동기 및 목표

Purely 시뮬레이션에서 학습된 엔드-투-엔드 비주얼모터 컨트롤이 실제 이미지 없이 작동할 수 있음을 Demonstrate
시뮬레이터에서 생성된 궤적을 통해 긴 수평의 다단계 작업(locat e, reach, grasp, locate basket, drop cube)을 학습
도메인 무작위화를 통해 실제 세계 변형(조명, 산만 요소, 이동 물체)에 대한 일반화 향상
전이 성능에 대한 보조 출력 및 네트워크 입력의 영향을 Assess
환경 변화 및 ablations에 대한 강건성 평가 및 전이의 핵심 요인 식별

제안 방법

다섯 단계 작업을 수행하기 위해 역운동학(Inverse kinematics)을 사용하여 대규모 시뮬레이션 궤적 데이터셋을 생성
시퀀스 이미지와 관절 각도를 PID 루프가 제어하는 모터 속도로 매핑하는 반응형 CNN을 학습
학습을 돕기 위한 보조 출력(큐브 및 그리퍼 위치)을 추가로 학습에 포함
도메인 무작위화를 Appearance, Textures, Lighting, Object colours, Positions, Distractors, Camera height 등에 적용하여 시뮬레이션-실세계 간 격차를 줄임
다단계 작업에서 상태를 포착하기 위해 순환 네트워크(LSTM)를 사용하고 입력의 일부로 관절 각도를 포함
그리드 기반의 실제 세계 테스트로 평가하고 다양 한 학습 데이터셋 크기 및 환경 조건에서 성능 비교

실험 결과

연구 질문

RQ1훈련 데이터셋 크기가 시뮬레이션 및 실제 세계에서 컨트롤러 성능에 어떻게 영향을 미치는가?
RQ2새로운 실제 세계 환경(산만 요소, 이동 물체, 조명 변화, 카메라 움직임)에 대해 전이된 컨트롤러의 강건성은 어떤가?
RQ3전이 성공에 가장 큰 영향을 미치는 도메인 무작리화 구성요소는 무엇인가(텍스처, 조명, 산만 요소, 기하학, 카메라 높이)?
RQ4보조 출력 및 관절 각도 입력이 전이 성능을 개선하는가?
RQ5이 다단계 작업에서 LSTM 구성요소는 성공에 필수적인가?

주요 결과

도메인 무작위화를 활용한 시뮬레이션 학습이 실제 이미지를 사용하지 않고도 다단계 작업(locate, reach, grasp, place)의 실제 실행으로 전이될 수 있다
데이터셋 크기를 늘리면 실제 세계 성능이 향상되며, 기본 설정에서 산만 요소가 없을 때 시뮬레이션 100만 개의 이미지가 실제 및 시뮬레이션 테스트에서 대략 100%의 성공률을 달성한다
보조 출력 및 관절 각도 입력은 성능 향상을 제공하며 LSTM를 제거하면 다단계 작업의 성공이 저하된다
컨트롤러는 여러 실제 세계 교란(산만 요소, 이동 물체, 조명 변화, 작은 카메라 모션)에 대해 여전히 강건하지만, 강한 산만 요소나 물체 외관 변화가 큰 경우 성능이 저하된다
ablation 연구는 LSTM이 단계 간 맥락 유지와 그리핑 중 방향 안정화에 중요한 역할을 하고, 관절 각도 입력이 안정화에 기여함을 보여준다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.