QUICK REVIEW

[論文レビュー] Dominant Set Clustering and Pooling for Multi-View 3D Object Recognition

Chu Wang, Marcello Pelillo|arXiv (Cornell University)|Jun 4, 2019

Human Pose and Action Recognition参考文献 21被引用数 37

ひとこと要約

再帰的 Dominant-set クラスタリングとプーリング層を導入し、マルチビュー CNN 特徴を融合させ、ModelNet40 における 3D オブジェクト認識を最先端レベルへ向上させる。

ABSTRACT

View based strategies for 3D object recognition have proven to be very successful. The state-of-the-art methods now achieve over 90% correct category level recognition performance on appearance images. We improve upon these methods by introducing a view clustering and pooling layer based on dominant sets. The key idea is to pool information from views which are similar and thus belong to the same cluster. The pooled feature vectors are then fed as inputs to the same layer, in a recurrent fashion. This recurrent clustering and pooling module, when inserted in an off-the-shelf pretrained CNN, boosts performance for multi-view 3D object recognition, achieving a new state of the art test set recognition accuracy of 93.8% on the ModelNet 40 database. We also explore a fast approximate learning strategy for our cluster-pooling CNN, which, while sacrificing end-to-end learning, greatly improves its training efficiency with only a slight reduction of recognition accuracy to 93.3%. Our implementation is available at https://github.com/fate3439/dscnn.

研究の動機と目的

多ビュー 3D オブジェクト認識を winner-take-all プーリング以上に改善する動機付け。
Dominant set に基づくビュークラスタリングとプーリング層を開発して似たビューを融合する。
end-to-end または高速トレーニングを可能にするため、再帰層を組み込んだ pretrained CNN による精度向上。

提案手法

ノードがビュー特徴ベクトル（relu 出力）、エッジ重みが CNN 特徴の内積となるビュー類似度グラフを構築する。
再現者ダイナミクスに基づくアルゴリズムを用いて Dominant set を抽出し、一貫したビュークラスターを形成する。
各 Dominant set 内をプール（最大値または平均）、結果を再帰的な洗練のためにフィードバックする、クラスタが安定するまで繰り返す。
pretrained VGG-M ネットワークの relu6/relu7 の後に再帰的クラスタリングとプーリング層を付着させ、全ストライドプーリングを行って統一されたマルチビュー特徴ベクトルを生成する。
再帰層の周りの CNN 層を微調整して end-to-end 学習を行うことも可能。高速トレーニングの変種は効率のためエンドツーエンド学習を省略する。
精度向上のため RGB に加えて深度や表面法線などの追加特徴モダリティを検討する。

実験結果

リサーチクエスチョン

RQ1Dominant-set に基づくクラスタリングは max プーリングやビュー間の対比較法よりマルチビュー特徴の融合を改善するのか？
RQ2再帰的クラスタリングとプーリング層を pretrained CNN に挿入して、マルチビュー認識のエンドツーエンド学習可能なネットワークを得られるのか？
RQ3ビュー数と追加モダリティの含有は ModelNet40 の認識性能にどう影響するのか？
RQ4高速トレーニングとエンドツーエンド学習を比較した場合のトレーニング効率と精度のトレードオフは？

主な発見

手法	ビュー選択	#ビュー	特徴タイプ	ベース CNNs	1エポックあたりの訓練コスト	部分集合精度	全集合精度
Pairwise	30°	best 12 of 144	RGB	2x vgg-m	288Φ	90.7	90.7
Pairwise (uniform)	uniform	best 12 of 144	RGB + Depth	4x vgg-m	576Φ	92.0	91.4
Qi-MVCNN (uniform)	uniform	20	RGB + Sph-30 + Sph-60	3x alexnet	60φ=5Φ	n/a	91.4
Su-MVCNN	30°	12	RGB	1x vgg-m	12Φ	89.9	91.5
Ours-Fast	30°	12	RGB	1x vgg-m	ε<0.5Φ	90.4	91.9
Ours-End-To-End	30°	12	RGB	1x vgg-m	12Φ	91.5	92.2
Ours-End-To-End (RGB+Depth+Surf)	30°	12	RGB + Depth + Surf	3x vgg-m	36Φ	92.9	93.8

RGB ビューと再帰的クラスタリングとプーリング層を用いた場合、ModelNet40 の全集合で 93.8% の最良のテスト精度を達成する。
エンドツーエンド学習は RGB ビューで 92.2% の全集合精度を達成する一方、ファストトレーニングは 91.9% の全集合精度。
RGB に深度と表面法線を組み合わせると、ファストトレーニングで全集合精度が 93.3%、エンドツーエンド学習で 93.8% に向上。
ビュー数を増やすと提案手法の性能が一般に向上し、MVCNN に対してもビュー数を問わず一貫した向上を示す。
ファストトレーニングはエポックあたりのコストを大幅に削減する一方、精度はエンドツーエンド学習と比較してわずかな低下にとどまる。
本手法は同等条件下で MVCNN および関連アプローチより ModelNet40 で優れた性能を発揮する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。