Skip to main content
QUICK REVIEW

[논문 리뷰] FusionNet: 3D Object Classification Using Multiple Data Representations

Vishakh Hegde, Reza Bosagh Zadeh|arXiv (Cornell University)|2016. 07. 19.
Image Processing and 3D Reconstruction참고 문헌 22인용 수 168
한 줄 요약

FusionNet은 voxel 데이터의 체적 CNN과 2D 투영의 다중 시야 CNN을 결합하여 3D 물체 분류를 향상시키고 ModelNet40/ModelNet10에서 최첨단 결과를 달성합니다.

ABSTRACT

High-quality 3D object recognition is an important component of many vision and robotics systems. We tackle the object recognition problem using two data representations, to achieve leading results on the Princeton ModelNet challenge. The two representations: 1. Volumetric representation: the 3D object is discretized spatially as binary voxels - $1$ if the voxel is occupied and $0$ otherwise. 2. Pixel representation: the 3D object is represented as a set of projected 2D pixel images. Current leading submissions to the ModelNet Challenge use Convolutional Neural Networks (CNNs) on pixel representations. However, we diverge from this trend and additionally, use Volumetric CNNs to bridge the gap between the efficiency of the above two representations. We combine both representations and exploit them to learn new features, which yield a significantly better classifier than using either of the representations in isolation. To do this, we introduce new Volumetric CNN (V-CNN) architectures.

연구 동기 및 목표

  • 보완적 데이터 표현을 사용한 강력한 3D 물체 분류 동기화.
  • 더 적은 매개변수로 장거리 3D 특징을 학습하는 체적 CNN(V-CNN) 개발.
  • 전이 학습을 활용한 다중 시야 2D 투영을 통해 사전 학습 네트워크를 활용.
  • 여러 이질적 네트워크의 예측을 융합해 단일 표현 성능을 능가합니다.

제안 방법

  • 객체 방향 보강이 포함된 두 가지 새로운 체적 CNN을 voxel 데이터에 도입.
  • 오리엔테이션당 60개의 방향을 사용해 각 방향 간 가중치를 공유하며 장거리 공간 상관관계를 학습.
  • V-CNN II에서 멀티스케일 체적 특징을 포착하기 위해 인셉션(inception) 스타일 모듈을 채택.
  • 무작위 정점 변위로 데이터 증강을 적용해 강건성을 높임.
  • 최종 레이어에서 체적 기반 네트워크와 MV-CNN을 선형 점수 융합으로 결합해 FusionNet을 형성.

실험 결과

연구 질문

  • RQ1볼록 기반 표현과 다중 시야 표현을 결합해 각각의 표현이 독립적으로 달성하는 것보다 3D 객체 분류를 향상시킬 수 있는가?
  • RQ2회전/정렬된 입력을 갖는 체적 네트워크가 ModelNet 벤치마크에서 2D 투영 기반 네트워크를 보완하는가?
  • RQ3이미지넷(ImageNet)에서의 전이 학습이 3D 형태 분류를 위한 MV-CNN 성능에 미치는 영향은 무엇인가?

주요 결과

네트워크사용된 뷰 수정확도(ModelNet10)정확도(ModelNet40)
Volumetric CNN (V-CNN 1)6091.4882.41
V-CNN I*6080.63
V-CNN II6090.2282.11
V-CNN II + V-CNN II6090.3283.31
V-CNN I + V-CNN II6091.9583.78
AlexNet (random) MV-CNN2085.82
AlexNet (FT) MV-CNN2092.6986.92
AlexNet (FT) MV-CNN + V-CNN I20, 6093.0488.50
FusionNet20, 6093.1190.80
  • V-CNN I와 V-CNN II는 비슷한 성능이지만 보완적 특징을 학습하며 이들을 결합하면 더 나은 결과를 얻는다.
  • ImageNet 사전 학습이 있는 AlexNet 기반 MV-CNN이 개별 체적 CNN보다 성능이 우수하다.
  • FusionNet(V-CNN I, V-CNN II, MV-CNN의 결합)은 ModelNet10 및 ModelNet40에서 최고 성능을 달성한다.
  • AlexNet 기반 MV-CNN의 미세조정은 상당한 이득을 제공하며, 이것을 체적 네트워크와 결합하면 추가 개선이 있다.
  • FusionNet 스타일은 60뷰 보 voxel 엔셈블링과 20뷰 MV-CNN이 단일 표현 방법을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.