QUICK REVIEW

[論文レビュー] Learning Local Image Descriptors with Deep Siamese and Triplet Convolutional Networks by Minimising Global Loss Functions

Vijay Kumar B G, Gustavo Carneiro|arXiv (Cornell University)|Dec 31, 2015

Advanced Image and Video Retrieval Techniques参考文献 28被引用数 176

ひとこと要約

本稿では、一般化性能と性能を向上させるために、新たなグローバル損失関数を用いたトリプレットおよびシames型畳み込みニューラルネットワークを用いて、局所的画像記述子の学習を提案する。この手法はUBCベンチマークで最先端の結果を達成し、トリプレット損失とグローバル損失の両方を用いて訓練されたトリプレットネットワークが最良の特徴埋め込みを達成した。一方、グローバル損失を用いたセンター・サブアラウンドシames型ネットワークは、FPR95スコアにおいて、先行するペアワイズ類似度手法と比較してほぼ半分の性能を達成した。

ABSTRACT

Recent innovations in training deep convolutional neural network (ConvNet) models have motivated the design of new methods to automatically learn local image descriptors. The latest deep ConvNets proposed for this task consist of a siamese network that is trained by penalising misclassification of pairs of local image patches. Current results from machine learning show that replacing this siamese by a triplet network can improve the classification accuracy in several problems, but this has yet to be demonstrated for local image descriptor learning. Moreover, current siamese and triplet networks have been trained with stochastic gradient descent that computes the gradient from individual pairs or triplets of local image patches, which can make them prone to overfitting. In this paper, we first propose the use of triplet networks for the problem of local image descriptor learning. Furthermore, we also propose the use of a global loss that minimises the overall classification error in the training set, which can improve the generalisation capability of the model. Using the UBC benchmark dataset for comparing local image descriptors, we show that the triplet network produces a more accurate embedding than the siamese network in terms of the UBC dataset errors. Moreover, we also demonstrate that a combination of the triplet and global losses produces the best embedding in the field, using this triplet network. Finally, we also show that the use of the central-surround siamese network trained with the global loss produces the best result of the field on the UBC dataset. Pre-trained models are available online at https://github.com/vijaykbg/deep-patchmatch

研究の動機と目的

標準的なシames型学習に代えてトリプレットネットワークを用いることで、学習された局所的画像記述子の一般化性能と頑健性を向上させること。
シames型およびトリプレットネットワークにおける過学習を軽減するため、全体の訓練セット誤差を最小化するグローバル損失関数を導入すること。
既存手法と比較して、トリプレットネットワークおよびグローバル損失が局所的記述子学習の性能を向上させるかどうかを評価すること。
グローバル損失が個々のペア/トリプレットベース最適化を超えてモデルの一般化性能を向上させるかどうかを実証すること。

提案手法

局所的画像記述子学習のためのトリプレットネットワークアーキテクチャを提案し、各訓練サンプルはクエリパッチ、同一3D位置のポジティブパッチ、異なる3D位置のネガティブパッチから構成される。
全訓練セット全体においてクラス内距離の分散を最小化し、クラス間距離の分散を最大化するグローバル損失関数を導入し、正則化を向上させる。
トリプレット損失とグローバル損失を組み合わせ、局所的な対照的学習とグローバルな分布的一致性の両方を同時に最適化する。
中心パッチと周囲のコンテキストを処理するセンター・サブアラウンドシames型ネットワークを採用し、特徴の識別性能を向上させる。
ミニバッチを用いた確率的勾配降下法を用い、初期化には事前学習済みのシames型モデルの重みを用いて収束性を向上させる。
交差検証を用いたハイパーパramータチューニングにより、マージン（m=0.01）、スケーリングパrameter（γ=1, t=0.4, λ=0.8）をグローバル損失関数に設定する。

実験結果

リサーチクエスチョン

RQ1シames型ネットワークと比較して、トリプレットネットワークは局所的画像記述子学習を改善できるか？
RQ2グローバル損失関数を組み込むことで、記述子学習における過学習が軽減され、一般化性能が向上するか？
RQ3トリプレット損失とグローバル損失の組み合わせは、それぞれの損失単体よりも優れた性能を達成できるか？
RQ4グローバル損失を用いたセンター・サブアラウンドシames型ネットワークは、既存のペアワイズ類似度手法を上回るか？

主な発見

トリプレット損失とグローバル損失の両方を用いて訓練されたトリプレットネットワーク（TNet-TGLoss）は、UBCベンチマークで、すべての先行手法を上回る最良の特徴埋め込み性能を達成した。
グローバル損失を用いて訓練されたセンター・サブアラウンドシames型ネットワーク（CS-SNet-GLoss）は、前回の最先端手法2ch-2streamと比較してFPR95スコアがほぼ半分にまで低下した。
TNet-TGLossモデルは、UBCの全6つのトレーニング・テスト組み合わせにおいて、平均FPR95が最低となり、優れた頑健性と一般化性能を示した。
グローバル損失は、収束が速く、少ない訓練エポック数でも優れた性能を示すなど、モデルの一般化性能を顕著に向上させた。
トリプレット損失とグローバル損失の組み合わせは、TNet-TGLossモデルを上回ることはなく、グローバル損失がトリプレット損失と組み合わさった際に最も効果的であることが示された。
提案手法は、埋め込みおよびペアワイズ類似度の両設定で最先端の結果を達成し、グローバル損失が標準的なペアワイズ学習よりも優れた性能を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。