QUICK REVIEW

[논문 리뷰] Weakly-supervised DCNN for RGB-D Object Recognition in Real-World Applications Which Lack Large-scale Annotated Training Data

Sun Li, Cheng Zhao|arXiv (Cornell University)|2017. 03. 19.

Advanced Neural Network Applications참고 문헌 3인용 수 54

한 줄 요약

본 논문은 소량의 라벨링 데이터와 대규모의 비라벨링 RGB-D 데이터를 활용하여 가우시안 프로세스 분류(Gaussian Process Classification)로 라벨을 전파하는 약한 지도 학습 기반의 RGB-D 객체 인식 프레임워크(DCNN-GPC)를 제시합니다. 이로써 바운딩 박스 주석 없이 엔드-투-엔드로 학습 가능한 다중 모달 DCNN를 실현합니다. 또한 합성 CAD 생성 깊이 맵으로부터의 깊이 사전 학습과 실시간 탐지를 위한 경계 인식 3D 객체성 감지기를 소개합니다.

ABSTRACT

This paper addresses the problem of RGBD object recognition in real-world applications, where large amounts of annotated training data are typically unavailable. To overcome this problem, we propose a novel, weakly-supervised learning architecture (DCNN-GPC) which combines parametric models (a pair of Deep Convolutional Neural Networks (DCNN) for RGB and D modalities) with non-parametric models (Gaussian Process Classification). Our system is initially trained using a small amount of labeled data, and then automatically prop- agates labels to large-scale unlabeled data. We first run 3D- based objectness detection on RGBD videos to acquire many unlabeled object proposals, and then employ DCNN-GPC to label them. As a result, our multi-modal DCNN can be trained end-to-end using only a small amount of human annotation. Finally, our 3D-based objectness detection and multi-modal DCNN are integrated into a real-time detection and recognition pipeline. In our approach, bounding-box annotations are not required and boundary-aware detection is achieved. We also propose a novel way to pretrain a DCNN for the depth modality, by training on virtual depth images projected from CAD models. We pretrain our multi-modal DCNN on public 3D datasets, achieving performance comparable to state-of-the-art methods on Washington RGBS Dataset. We then finetune the network by further training on a small amount of annotated data from our novel dataset of industrial objects (nuclear waste simulants). Our weakly supervised approach has demonstrated to be highly effective in solving a novel RGBD object recognition application which lacks of human annotations.

연구 동기 및 목표

주석 데이터가 부족한 실제 환경에서 RGB-D 객체 인식의 필요성을 제시한다.
RGB 및 깊이에 대한 DCNN과 Gaussian Process Classification를 결합한 약한 지도 학습 아키텍처를 개발한다.
적은 labeled data와 큰 unlabeled 제안을 사용하여 다중 모달 DCNN의 엔드-투-엔드 학습을 가능하게 한다.
3D 정보를 활용하기 위해 합성 CAD 생성 깊이 이미지로 깊이 네트워크를 사전 학습한다.
산업용 RGB-D 데이터에서 실시간 경계 인식 탐지를 시연하고 완전 감독 baselines와 비교한다.

제안 방법

RGB-Net, Depth-Net, 및 비모수적 Gaussian Process Classifier (GPC)로 구성된 3-컴포넌트 아키텍처를 사용한다.
RGB-Net은 ImageNet에서 사전 학습하고 Depth-Net은 CAD 모델에서 생성된 합성 깊이 맵을 통해 Model-Net에서 사전 학습한다.
다중 모달 커널을 가진 DCNN-GPC를 사용하여 수작업으로 라벨링된 소수의 물체성 제안에서 대규모 비라벨링 세트로 라벨을 전파한다.
GP-라벨링 데이터를 포함하는 소프트 맥스 손실로 엔드-투-엔드 다중 모달 DCNN을 학습한다(약한 지도학습).
바운딩 박스 없이 경계 인식 RGB-D 제안을 생성하기 위해 실시간 3D 물체성 탐지기를 사용한다.
GPC의 커널 곱으로 RGB와 깊이 특징을 융합하고 하이퍼파라미터 조정으로 EP-기반 후도를 최적화한다.

실험 결과

연구 질문

RQ1약한 지도 학습 RGB-D 객체 인식 시스템이 최소한의 라벨 데이터로도 완전 감독 방법에 비해 경쟁력 있는 성능을 달성할 수 있는가?
RQ2깊이 네트워크에 대해 합성 깊이 사전 학습을 활용하면 색상 맵핑 없이도 실제 RGB-D 데이터로의 전이가 향상되는가?
RQ33D 기반 객체성 탐지기가 엔드-투-엔드 DCNN-GPC 학습에 적합한 경계 인식 제안을 제공하는가?
RQ4GP로 라벨 전파된 데이터를 사용하여 학습한 다중 모달 DCNN이 산업용 RGB-D 인식 작업에서 얼마나 잘 작동하는가?
RQ5GP 라벨 전파를 DCNN 미세조정과 통합할 때 엔드-투-엔드 학습 이점은 무엇인가?

주요 결과

합성 CAD 깊이 맵에서 사전 학습된 Depth-Net이 색상 맵핑된 입력 없이도 원시 깊이 데이터에 대해 효과적인 엔드-투-엔드 학습을 가능하게 한다.
Washington RGB-D 데이터셋에서 제안된 다중 모달 DCNN는 51개 카테고리에서 91.8%의 인식 정확도를 달성하여 대부분의 DCNN 기반 방법보다 우수하다.
Model-Net에서의 깊이 사전 학습은 3D-깊이 관련 작업에 대해 경쟁력 있는 결과를 제공하고 Kinect 유래 RGB-D 데이터로의 전이를 촉진한다.
산업용 RGB-D 데이터에서 시스템은 인스턴스 단위 정밀도 80.85%, 재현율 83.53%, F-score 82.17%를 달성하고 픽셀 단위로는 정밀도 75.52%, 재현율 70.39%, F-score 72.87%를 달성한다.
이 파이프라인은 다운샘플링과 더 가벼운 네트워크를 사용하면 대략 5 Hz까지 증가하는 거의 실시간으로 작동하며, 기존 바운딩 박스 기반 방법보다 상당히 빠르다.
완전 감독 R-CNN 기반 baselines와 비교할 때, 약한 지도 접근 방식은 GP에 의한 라벨 생성으로 인해 규모 및 자세 변화에 대해 강건한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.