QUICK REVIEW

[論文レビュー] GIFT: Learning Transformation-Invariant Dense Visual Descriptors via Group CNNs

Yuan Liu, Zehong Shen|arXiv (Cornell University)|Nov 13, 2019

Advanced Image and Video Retrieval Techniques参考文献 35被引用数 45

ひとこと要約

GIFT は、変換で得られる特徴に対してグループ畳込みを用いる変換不変な密集デスクリプタを導入し、密集マッチングのための識別性が高く、かつ証明可能な不変性を持つデスクリプタを実現し、相対姿勢推定を改善します。

ABSTRACT

Finding local correspondences between images with different viewpoints requires local descriptors that are robust against geometric transformations. An approach for transformation invariance is to integrate out the transformations by pooling the features extracted from transformed versions of an image. However, the feature pooling may sacrifice the distinctiveness of the resulting descriptors. In this paper, we introduce a novel visual descriptor named Group Invariant Feature Transform (GIFT), which is both discriminative and robust to geometric transformations. The key idea is that the features extracted from the transformed versions of an image can be viewed as a function defined on the group of the transformations. Instead of feature pooling, we use group convolutions to exploit underlying structures of the extracted features on the group, resulting in descriptors that are both discriminative and provably invariant to the group of transformations. Extensive experiments show that GIFT outperforms state-of-the-art methods on several benchmark datasets and practically improves the performance of relative pose estimation.

研究の動機と目的

視点間の幾何変換に対して頑健な局所デスクリプタの必要性を動機づける。
変換群に対して不変でありつつ識別性を保つデスクリプタを提案する。
変換された画像からグループ特徴を構築し、それをグループCNNで埋め込むパイプラインを開発する。
グループ畳込みとバイリニアプーリングによる証明可能な不変性を示す。
標準データセットおよび極端な変化を含むデータセットで最先端の性能を示す。

提案手法

グループ G（回転とスケーリング）からの変換のグリッドで入力画像をワープさせる。
各変換画像上でベーシックなCNNを用いて特徴を抽出し、各点でG上のグループ特徴 f0(g) を形成する。
f0 を二つのグループCNN（alphaとbeta）で処理して、等変性を保持しつつ f_l,alpha と f_l,beta を得る（グループ畳込み層）。
二つのグループCNN出力に対してバイリニアプーリングを適用して最終的な GIFT デスクリプタ d を形成し、それを単位長に正規化する。
正しいマッチを促進するように Hard Negative Mining を用いたトリプレット損失で学習する。
計算を実用的にするためにサンプリングされたグループ要素を使用し、離散グループプーリングを導入して不変性を達成する。

実験結果

リサーチクエスチョン

RQ1局所デスクリプタを変換群に対して不変にしつつ識別性を損なわずにするにはどうすればよいか？
RQ2変換群上で定義された特徴に対するグループ畳込みは等変性を保持し、不変な密集デスクリプタを可能にするか？
RQ3大幅な視点変化や外観の変化の下で、GIFT は密集・疎密なマッチングおよび相対姿勢推定を改善しますか？

主な発見

GIFT は、検討された変換群に対して識別性が高く、証明可能な不変デスクリプタを提供し、ベンチマークデータセットで伝統的および学習済みデスクリプタを上回る。
Biliner pooling を二つの group-CNN 出力に適用することは、他のプーリング方式よりも頑健な不変性とより豊かな統計を提供する。
グループ畳込み層の数を増やすとアブレーションで性能が向上する。実験で用いられた GIFT-6 は高い結果を示す。
GIFT は極端なスケール・向きの変化に対して頑健性を示し、実データでファインチューニングされたときに相対姿勢推定を改善する（GIFT-F）。
実装は 480x360 画像で 1024 検出点に対して GTX 1080 Ti で約 65.2 ms 程度で実行され、実用的な速度を示します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。