QUICK REVIEW

[논문 리뷰] Multi-view Self-supervised Deep Learning for 6D Pose Estimation in the Amazon Picking Challenge

Andy Zeng, Kuan‐Ting Yu|arXiv (Cornell University)|2016. 09. 29.

Robotics and Sensor-Based Localization참고 문헌 13인용 수 35

한 줄 요약

이 논문은 RGB-D 데이터와 완전 컨volution 신경망을 사용하여 다중 시각에서의 물체 분할을 수행하고, 이후 3차원 모델 피팅을 통해 혼잡하고 실제 창고 환경에서의 6자유도 물체 자세 추정을 위한 다중 시각 자기지도 학습 딥러닝 방법을 제안한다. 주요 기여는 130,000개의 합성 픽셀별 레이블이 부여된 이미지를 생성하는 자기지도 학습 방법으로, 이는 APC 2016 벤치마크에서 평균 회전 정확도 49.8%와 평균 이동 정확도 66.1%를 달성함으로써 강력한 6자유도 자세 추정을 가능하게 한다.

ABSTRACT

Robot warehouse automation has attracted significant interest in recent years, perhaps most visibly in the Amazon Picking Challenge (APC). A fully autonomous warehouse pick-and-place system requires robust vision that reliably recognizes and locates objects amid cluttered environments, self-occlusions, sensor noise, and a large variety of objects. In this paper we present an approach that leverages multi-view RGB-D data and self-supervised, data-driven learning to overcome those difficulties. The approach was part of the MIT-Princeton Team system that took 3rd- and 4th- place in the stowing and picking tasks, respectively at APC 2016. In the proposed approach, we segment and label multiple views of a scene with a fully convolutional neural network, and then fit pre-scanned 3D object models to the resulting segmentation to get the 6D object pose. Training a deep neural network for segmentation typically requires a large amount of training data. We propose a self-supervised method to generate a large labeled dataset without tedious manual segmentation. We demonstrate that our system can reliably estimate the 6D pose of objects under a variety of scenarios. All code, data, and benchmarks are available at http://apc.cs.princeton.edu/

연구 동기 및 목표

실제 창고 환경에서 혼잡하고 가림이 많으며 노이즈가 많은 조건에서의 강력한 6자유도 물체 자세 추정 문제를 해결하기 위해.
실제 레이블이 제한된 상황에서 딥 라이닝 분할 네트워크를 훈련할 때의 데이터 부족 문제를 해결하기 위해, 수동 레이블링 없이 대규모 합성 픽셀별 레이블이 부여된 훈련 데이터를 생성하기 위해.
다중 시각 RGB-D 데이터와 알려진 작업 제약 조건(예: 물체 목록, 선반 모델)을 활용하여 자세 추정의 강력성과 정확도를 향상시키기 위해.
그립퍼 및 흡착 기반 피킹 전략을 모두 지원하는 로봇 조작과 원활하게 통합되는 비전 시스템을 설계하기 위해.
6자유도 자세 추정 평가를 위한 7,000장 이상의 수동 레이블이 부여된 이미지(477개의 시나리오에서 촬영)를 포함하는 공개 벤치마크 데이터셋을 제공하기 위해.

제안 방법

로봇 시스템에 장착된 Intel RealSense 카메라를 사용하여 시나리오의 15~18개 다중 시각 RGB-D 이미지를 촬영한다.
각 색상 이미지를 완전 컨volution 신경망(FCN)에 입력하여 2차원 인스턴스 분할을 수행하고 픽셀별 카테고리 레이블을 생성한다.
카메라 캘리브레이션과 깊이 데이터를 활용하여 2차원 분할 마스크를 3차원 포인트 클라우드에 통합하여 3차원 물체 위치 추정을 수행한다.
배경 제거 및 3D 모델 피팅(I CP 또는 유사 방법 사용)을 적용하여 사전 스캔된 3차원 CAD 모델을 분할된 포인트 클라우드에 정렬하여 6자유도 자세를 추정한다.
자기지도 학습 절차를 사용: 알려진 시나리오에 물체 배치를 시뮬레이션하고 물체 목록과 선반 모델을 활용하여 합성 RGB-D 이미지를 렌더링하며, 진짜 분할 레이블을 함께 제공한다.
알려진 시나리오 기하학과 물체 모델을 활용하여 수동 레이블링 없이도 130,000개의 자기 생성 합성 이미지로 FCN를 훈련한다.

실험 결과

연구 질문

RQ1실제 데이터에 대한 레이블이 부족한 상황에서 자기지도 학습 기반 데이터 생성이 6자유도 자세 추정 성능을 크게 향상시킬 수 있는가?
RQ2단일 시각 방법과 비교했을 때, 다중 시각 융합이 혼잡하고 가림이 많거나 노이즈가 많은 창고 환경에서 얼마나 강력한가?
RQ3작업 특화 제약 조건(예: 알려진 물체 목록, 선반 모델)이 분할을 위한 효과적인 자기지도 학습을 가능하게 하는 정도는 어느 정도인가?
RQ4어려운 자세 추정 시나리오에서 다중 시각 입력과 단일 시각 입력 간의 성능 향상은 어느 정도인가?
RQ5투명성, 반사성, 작은 물체 크기 등의 실제 환경 조건에서 최신 기술과 비교했을 때 제안된 시스템의 정확도와 강력성은 어떠한가?

주요 결과

전체 시스템은 APC 2016 챌린지의 모든 테스트 환경에서 평균 회전 정확도 49.8%와 평균 이동 정확도 66.1%를 달성했다.
신뢰도 임계값(예: conf-70)을 사용하면 시스템 성능이 64.5% 회전 정확도와 84.5% 이동 정확도로 향상되었으며, 이는 신뢰도 필터링이 강력성을 높인다는 것을 시사한다.
자기지도 학습 절차를 통해 130,000개의 합성 픽셀별 레이블이 부여된 이미지를 생성하여 수동 레이블링 의존도를 크게 감소시켰다.
5v-10v 및 1v-2v 분석 결과, 다중 시각 입력이 단일 시각 입력보다 항상 우수했으며, 특히 고혼잡도 및 고가림 상황에서 두드러졌다.
노이즈 제거 단계나 ICP 정렬 개선을 제거하면 성능이 떨어졌으며, 이는 센서 노이즈와 정렬 오류를 다루는 데 이 구성 요소들이 중요한 역할을 한다는 것을 확인한다.
진짜 분할 마스크를 사용하면 성능이 63.4% 회전 정확도와 88.1% 이동 정확도로 향상되었으며, 이는 완벽한 지도 학습 조건에서의 방법의 잠재력 상한선을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.