QUICK REVIEW

[논문 리뷰] Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World

Josh Tobin, Rachel Fong|arXiv (Cornell University)|2017. 03. 20.

Domain Adaptation and Few-Shot Learning참고 문헌 46인용 수 206

한 줄 요약

이 논문은 도메인 랜덤화로 시뮬레이션에서 완전히 학습된 객체 검출기가 실제 세계로 이전되어 혼잡한 환경에서 실제 데이터 없이도 그립이 가능하다는 것을 보여준다.

ABSTRACT

Bridging the 'reality gap' that separates simulated robotics from experiments on hardware could accelerate robotic research through improved data availability. This paper explores domain randomization, a simple technique for training models on simulated images that transfer to real images by randomizing rendering in the simulator. With enough variability in the simulator, the real world may appear to the model as just another variation. We focus on the task of object localization, which is a stepping stone to general robotic manipulation skills. We find that it is possible to train a real-world object detector that is accurate to $1.5$cm and robust to distractors and partial occlusions using only data from a simulator with non-realistic random textures. To demonstrate the capabilities of our detectors, we show they can be used to perform grasping in a cluttered environment. To our knowledge, this is the first successful transfer of a deep neural network trained only on simulated RGB images (without pre-training on real images) to the real world for the purpose of robotic control.

연구 동기 및 목표

현실과 시뮬레이션 간의 차이를 신속하고 저비용으로 해소하기 위해 시뮬레이션에서 로봇 데이터를 수집하는 것을 목표로 한다.
모델이 매우 다양한 합성 질감과 장면 구성을 노출시켜 실제 세계 시각에 일반화되도록 도메인 랜덤화를 방법으로 제안한다.
랜덤화된 시뮬레이션 RGB 이미지에서만 학습된 검출기가 실제 세계에서 높은 정밀도로 물체를 로컬라이즈할 수 있음을 보인다.
학습된 검출기가 혼잡한 실제 환경에서 그립을 수행하는 데 사용될 수 있음을 시연한다.

제안 방법

단일 모노크롬 프레임을 3D 물체 좌표로 매핑하는 CNN 기반 객체 검출기(수정된 VGG-16) 학습.
시뮬레이션 중 물체 수, 질감, 조명, 카메라 자세, 노이즈를 포함한 수많은 장면 요소를 비현실적 질감으로 무작위화.
MuJoCo 렌더러를 사용해 수십만 개의 레이블 샘플을 생성.
사전학습 가중치(ImageNet) 또는 무작위 초기화를 사용하고, L2 손실에 대해 Adam으로 최적화하여 물체 중심 좌표를 학습.
실제 웹캠 이미지에서 방해 요소와 차폐 하에서 로컬라이제이션 정확도를 평가하고 Fetch 로봇으로 로봇 그립 실험 수행.

실험 결과

연구 질문

RQ1도메인 랜덤화가 단일 RGB 이미지에서 실제 데이터 없이도 정밀한 물체 로컬라이제이션을 시뮬레이션에서 실제로 전달할 수 있는가?
RQ2도메인 랜덤화의 어떤 요소(질감, 카메라 자세, 조명, 방해 요소)가 실제 환경에서의 강건한 성능에 결정적인가?
RQ3전달에 있어 실제 이미지에 대한 사전 학습이 필수적인가, 아니면 충분한 합성 데이터로 무작위 초기화로도 충분한가?
RQ4시뮬레이션에서 학습된 검출기가 혼잡한 실제 환경에서 로봇 그립을 지원할 수 있는가?

주요 결과

도메인 랜덤화를 이용해 시뮬레이션 데이터에서만 학습된 검출기가 실제 세계에서 평균 약 1.5 cm의 정확도로 물체를 로컬라이즈한다.
현실 세계의 방해 요소와 부분 가림에 대해서도 성능이 강건하게 유지된다.
실제 이미지에 대한 사전 학습이 필수적이지 않으며 충분한 합성 데이터로도 비슷한 성능을 낼 수 있다; 다만 데이터가 적은 구간에서는 사전 학습이 도움이 된다.
로봇 공학 실험에서 Fetch 로봇의 혼잡 환경에서 38번의 시도 중 40번의 시도에서 성공적으로 그립이 가능했다.
비균일 질감을 가진 실제 물체(예: YCB 데이터 세트의 통)에서도 대부분의 시도에서 성공적인 집기를 보이며 일반화될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.