QUICK REVIEW

[논문 리뷰] Learning a visuomotor controller for real world robotic grasping using simulated depth images

Ulrich Viereck, Andreas ten Pas|arXiv (Cornell University)|2017. 06. 14.

Robot Manipulation and Learning참고 문헌 18인용 수 100

한 줄 요약

논문은 시뮬레이션 깊이 이미지와 손목에 장착된 깊이 센서를 사용해 로봇의 그립을 위한 폐쇄 루프 비주얼-모터 컨트롤러를 학습시키며, 이는 한 번의 그립 포즈 탐지에 비해 동적 보정과 노이즈에 대한 강건성을 향상시킨다. 시뮬레이션에서 실제 로봇으로의 전환이 가능하며, 관절역학 및 지각 교란 하에서 강력한 베이스라인보다 우수하다.

ABSTRACT

We want to build robots that are useful in unstructured real world applications, such as doing work in the household. Grasping in particular is an important skill in this domain, yet it remains a challenge. One of the key hurdles is handling unexpected changes or motion in the objects being grasped and kinematic noise or other errors in the robot. This paper proposes an approach to learning a closed-loop controller for robotic grasping that dynamically guides the gripper to the object. We use a wrist-mounted sensor to acquire depth images in front of the gripper and train a convolutional neural network to learn a distance function to true grasps for grasp configurations over an image. The training sensor data is generated in simulation, a major advantage over previous work that uses real robot experience, which is costly to obtain. Despite being trained in simulation, our approach works well on real noisy sensor images. We compare our controller in simulated and real robot experiments to a strong baseline for grasp pose detection, and find that our approach significantly outperforms the baseline in the presence of kinematic noise, perceptual errors and disturbances of the object during grasping.

연구 동기 및 목표

비정형 실세계 환경에서 지각 노이즈와 물체 움직임을 다뤄 견고한 그립을 추구한다.
그립 도중 잘못 정렬을 보정할 수 있는 폐쇄 루프 비주얼-모터 컨트롤러를 개발한다.
깊이 센서를 손목 근처에 장착해 특정 시야 방향 의존성을 제거한다.
깊이 이미지만으로 제어기를 완전히 시뮬레이션에서 학습해 실제 로봇 데이터 요구를 줄인다.
시뮬레이션 깊이 이미지를 실제 로봇 성능으로 전이시키고 강력한 베이스라인과 비교한다.

제안 방법

깊이 이미지를 입력으로 후보 핸드 편향에 대한 가장 가까운 그리스를 거리로 예측하는 CNN 회귀기.
OpenRAVE에서 레이 트레이싱된 깊이 이미지를 가진 12.5k개의 장면과 381개의 그립 가능한 물체가 10가지 범주로 구성된 데이터를 이용한 학습.
거리 차원은 포즈 공간에서 미터 단위로 측정되며 동작 성분에 대해 각도 가중치(0.001 m/degree)가 적용된다.
네트워크는 두 개의 합성곱 층을 가진 LeNet 류의 구조로, 두 개의 완전 연결 층과 ‘거리-목표로 이동’ 출력을 갖는다.
손실은 포즈 간 비교를 위한 L1(회귀)을 사용한다; 분류가 아닌 회귀를 통해 그립 품질을 평가한다.
컨트롤러는 예측된 거리 최소화를 위한 동작을 반복적으로 선택하고 스텝의 일부를 이동한 뒤 물체에 접근하기 위해 z 축으로 진행한다.
동작의 샘플링은 현재 포즈 주변 영역으로 제한되어 로컬 그래디언트 정보를 포착하고 안정성을 보장한다.
학습은 900k 반복의 확률적 경사 하강법, 학습률 0.001, 모멘텀 0.9, 배치 크기 1000으로 수행되었다.

실험 결과

연구 질문

RQ1시뮬레이션에서 학습된 폐쇄 루프 비주얼-모터 컨트롤러가 실제 깊이 이미지를 이용한 그립에 일반화되는가?
RQ2제안된 거리 대 가장 가까운 그립 CNN은 지각 및 운동 제약 하에서의 한 번의 그립 포즈 탐지와 어떻게 비교되는가?
RQ3손목에 부착된 깊이 센싱이 서로 다른 그립 방향에서도 시야 불변의 그립 정책을 가능하게 하는가?
RQ4제안된 컨트롤러와 강력한 베이스라인 사이에서 관절 기계적 노이즈와 지각 오차가 그립 성공에 미치는 영향은 무엇인가?

주요 결과

시나리오	CTR	GPD
격리된 물체들	97.5%	97.5%
혼잡한 환경	88.9%	94.8%
혼잡한 환경에서 회전	77.3%	22.5%

CTR은 노이즈가 없는 시뮬레이션에서 GPD와 일치하며 운동 노이즈 하에서 GPD보다 우수하다.
CTR은 단일 깊이 이미지의 지각 오차를 새로운 깊이 피드백으로 재그립하여 보상한다.
UR5 하드웨어에서 CTR은 격리에서 97.5%의 성공과 잡다한 물체에서 88.9%의 성공을 달성하며, GPD와 비교 시(97.5%와 94.8%) 유사하지만 그립 중 물체가 회전하거나 이동할 때 GPD를 능가한다.
CTR은 그립 도중 물체가 이동하는 경우에도 강건함을 보이며, GPD의 성능은 크게 저하된다.
시뮬레이션에서 학습된 CNN은 잘못된 읽기 값을 처리한 후 실제 깊이 이미지로 잘 전이된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.