Skip to main content
QUICK REVIEW

[論文レビュー] Triplet-Center Loss for Multi-View 3D Object Retrieval

Xinwei He, Yang Zhou|arXiv (Cornell University)|Mar 16, 2018
3D Shape Modeling and Analysis参考文献 33被引用数 39
ひとこと要約

本論文は、三つ組損失とセンター損失を組み合わせた新しいメトリクス学習損失である三つ組センター損失(TCL)を提案する。この手法により、マルチビュー3Dオブジェクト検索における特徴の識別性が向上し、ModelNet40、ShapeNet Core55、スケッチベースのベンチマークで、mAPが最大5%向上するなど、最先端の手法を上回る検索性能を達成する。

ABSTRACT

Most existing 3D object recognition algorithms focus on leveraging the strong discriminative power of deep learning models with softmax loss for the classification of 3D data, while learning discriminative features with deep metric learning for 3D object retrieval is more or less neglected. In the paper, we study variants of deep metric learning losses for 3D object retrieval, which did not receive enough attention from this area. First , two kinds of representative losses, triplet loss and center loss, are introduced which could learn more discriminative features than traditional classification loss. Then, we propose a novel loss named triplet-center loss, which can further enhance the discriminative power of the features. The proposed triplet-center loss learns a center for each class and requires that the distances between samples and centers from the same class are closer than those from different classes. Extensive experimental results on two popular 3D object retrieval benchmarks and two widely-adopted sketch-based 3D shape retrieval benchmarks consistently demonstrate the effectiveness of our proposed loss, and significant improvements have been achieved compared with the state-of-the-arts.

研究の動機と目的

  • 3Dオブジェクト検索における深層メトリクス学習損失の利用がまだ十分に検討されていない点に着目し、特にマルチビュー設定における課題を解決すること。
  • 従来のソフトマックス分類損失の代替として、三つ組損失とセンター損失の有効性を検証すること。
  • クラス内コンパクト性とクラス間分離性を両立させる統合された損失関数を設計し、検索性能の向上を図ること。
  • 提案された損失が、ビューに基づく、モデルに基づく、スケッチに基づく3D検索タスクのすべてに一般化可能であることを示すこと。

提案手法

  • 各クラスに中心を学習させ、同じクラスに属する特徴が他のクラスの中心よりも自身の中心に近くなるように制約する三つ組センター損失(TCL)を提案する。
  • 三つ組損失のマージンに基づく最適化と、センター損失の中心に基づく正則化を組み合わせ、クラス内分散の最小化とクラス間マージンの最大化を同時に達成する。
  • マルチビュー畳み込みニューラルネットワーク(MVCNN)フレームワークにTCLを統合し、マルチビュー投影から特徴抽出とメトリクス学習を一括して行うエンドツーエンド学習を可能にする。
  • TCLをビューに基づくネットワークにとどまらず、PointNet や VoxNet などのモデルベースアーキテクチャにも適用し、一般化性能を評価する。
  • マージンに基づく最適化目的関数を採用:各アーキテクチャサンプルについて、自身のクラス中心への距離を最小化するとともに、他のクラス中心との距離を最大化する。
  • 標準的な深層学習評価指標(mAP、NN、FT、ST、DCG、E)を用いて、複数のベンチマークで検索性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1三つ組損失とセンター損失は、従来のソフトマックスベースの分類損失に代わって、マルチビュー3Dオブジェクト検索に効果的に適用可能か?
  • RQ2三つ組損失とセンター損失を統合した単一の目的関数(TCL)は、それぞれの損失単体よりも優れた特徴の識別性を実現するか?
  • RQ3ModelNet40 や ShapeNet Core55 といった標準的な3D検索ベンチマークにおいて、TCLは最先端の手法を上回る性能を示すか?
  • RQ4スケッチを特別なビューとみなしたスケッチベースの3D形状検索においても、TCLは一般化可能か?
  • RQ5入力表現が異なるPointNet や VoxNet といったモデルベース3Dネットワークに対しても、TCLは性能向上をもたらすか?

主な発見

  • SHREC’13ベンチマークでは、TCLが80.7%のmAPを達成し、前回の最先端手法LWBR(75.2%)を5.5ポイント上回った。
  • SHREC’14ベンチマークでは、TCLが47.7%のmAPを達成し、LWBR(40.1%)を7.6ポイント上回った。
  • ModelNet40では、TCLをソフトマックス損失と組み合わせた場合、PointNetで74.5%、VoxNetで73.2%のmAPを達成し、ベースラインモデル比で3–4%の向上を示した。
  • 提案されたTCLは、すべての評価ベンチマークで、すべての指標(NN、FT、ST、DCG、mAP)において一貫して検索性能を向上させた。
  • ワーストアイリーバリオンセンターのような複雑な表現を用いなくても、TCLは優れた結果を達成しており、特徴学習における有効性を示している。
  • アブレーションスタディの結果、TCLがクラス内コンパクト性とクラス間分離性の両方を統合的に最適化することで、ベースライン損失よりも識別性の高い特徴が得られることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。