[論文レビュー] FusionNet: 3D Object Classification Using Multiple Data Representations
FusionNet はボクセルデータ上のボリュームCNNと 2D 投影上のマルチビューCNNを組み合わせて 3D 物体分類を改善し、ModelNet40/ModelNet10 で最先端の成果を達成する。
High-quality 3D object recognition is an important component of many vision and robotics systems. We tackle the object recognition problem using two data representations, to achieve leading results on the Princeton ModelNet challenge. The two representations: 1. Volumetric representation: the 3D object is discretized spatially as binary voxels - $1$ if the voxel is occupied and $0$ otherwise. 2. Pixel representation: the 3D object is represented as a set of projected 2D pixel images. Current leading submissions to the ModelNet Challenge use Convolutional Neural Networks (CNNs) on pixel representations. However, we diverge from this trend and additionally, use Volumetric CNNs to bridge the gap between the efficiency of the above two representations. We combine both representations and exploit them to learn new features, which yield a significantly better classifier than using either of the representations in isolation. To do this, we introduce new Volumetric CNN (V-CNN) architectures.
研究の動機と目的
- 補完的なデータ表現を用いて頑健な3D物体分類を動機づける。
- パラメータ数を抑えつつ長距離の3D特徴を学習するボリュームCNN(V-CNN)を開発する。
- 転移学習を用いた多視点の2D投影を活用し、事前学習済みネットワークを活用する。
- 異種ネットワークからの予測を融合して、単一表現の性能を上回る。
提案手法
- ボクセルデータ用の新しい2つのボリュームCNNを、向きの拡張を用いて導入する。
- 各オブジェクトにつき60の向きを用い、向き間で共有重みを使って長距離の空間相関を学習する。
- V-CNN II では、マルチスケールのボクセル特徴を捉えるためにインセプション風モジュールを採用する。
- ロバスト性を高めるために、頂点のランダム移動によるデータ拡張を適用する。
- 最終層で線形スコア融合を介してボクセルベースのネットワークとMV-CNNを結合し、FusionNet を形成する。
実験結果
リサーチクエスチョン
- RQ1ボクセルベース表現とマルチビュー表現を組み合わせることで、それぞれ単独で達成する性能を超える3D物体分類が可能か?
- RQ2回転/向き付けられた入力を持つボリュームネットワークは、ModelNet ベンチマークの2D投影ベースネットワークを補完するか?
- RQ3ImageNet からの転移学習が3D形状分類の MV-CNN の性能に与える効果は何か?
主な発見
| ネットワーク | 使用ビュー数 | Accuracy (ModelNet10) | Accuracy (ModelNet40) |
|---|---|---|---|
| Volumetric CNN (V-CNN 1) | 60 | 91.48 | 82.41 |
| V-CNN I* | 60 | – | 80.63 |
| V-CNN II | 60 | 90.22 | 82.11 |
| V-CNN II + V-CNN II | 60 | 90.32 | 83.31 |
| V-CNN I + V-CNN II | 60 | 91.95 | 83.78 |
| AlexNet (random) MV-CNN | 20 | – | 85.82 |
| AlexNet (FT) MV-CNN | 20 | 92.69 | 86.92 |
| AlexNet (FT) MV-CNN + V-CNN I | 20, 60 | 93.04 | 88.50 |
| FusionNet | 20, 60 | 93.11 | 90.80 |
- V-CNN I と V-CNN II は同等の性能を示しつつ補完的な特徴を学習する。組み合わせるとより良い結果になる。
- ImageNet の事前学習を用いた AlexNet ベースの MV-CNN が個別のボリュームCNNよりも優れている。
- FusionNet(V-CNN I、V-CNN II、MV-CNN の組み合わせ)は ModelNet10 および ModelNet40 で最高の結果を達成する。
- AlexNet ベースの MV-CNN のファインチューニングは顕著な改善をもたらし、ボクセルネットワークとの組み合わせでさらなる改善となる。
- FusionNet のスタイルは 60-ビューのボクセルアンサンブルと 20-ビューの MV-CNN を組み合わせ、単一表現手法を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。