[論文レビュー] Recurrent Transformer Networks for Semantic Correspondence
RTNsは画像ペア間の局所的に変化する幾何変換を直接推定し、特徴を反復的に整列させることで密な意味対応を得る。弱教師付き分類損失で訓練。
We present recurrent transformer networks (RTNs) for obtaining dense correspondences between semantically similar images. Our networks accomplish this through an iterative process of estimating spatial transformations between the input images and using these transformations to generate aligned convolutional activations. By directly estimating the transformations between an image pair, rather than employing spatial transformer networks to independently normalize each individual image, we show that greater accuracy can be achieved. This process is conducted in a recursive manner to refine both the transformation estimates and the feature representations. In addition, a technique is presented for weakly-supervised training of RTNs that is based on a proposed classification loss. With RTNs, state-of-the-art performance is attained on several benchmarks for semantic correspondence.
研究の動機と目的
- 大きなクラス内変動を伴う意味的に類似した画像間で密な対応を動機づける。
- 各画像を独立に正規化するのではなく、対における幾何的ひずみを直接推定する方法を提案する。
- 反復を通して変換推定と特徴表現を改良する再帰的アーキテクチャを開発する。
- ソースと幾何的に整列したターゲット特徴間の分類損失を介して、地上 truth の変換マップがなくても弱教師付き訓練を可能にする。
提案手法
- RTNsを特徴抽出ネットワークと幾何学的マッチングネットワークに分割し、重みを共有する。
- 局所探索窓に渡る相関ボリュームを計算して、denseなアファイン変換場を推定する。
- ジオメトリと整列した特徴を改良するために残差変換場を反復的に予測する(K_max iterations)。
- 現在推定されたジオメトリを用いてターゲット特徴を変換し、画像全体の特徴を再利用して効率的に更新特徴を抽出する。
- 正しい変換に対して最も高い類似度を、他には低くするような分類損失で弱教師付き訓練を行う。
実験結果
リサーチクエスチョン
- RQ1RTNsは地上-truthの変換マップなしで、画像ペアから局所的に変化するアファイン場を直接学習できるか。
- RQ2幾何と特徴の再帰的改良は、単一パス手法より意味的対応の精度を向上させるか。
- RQ3分類損失による弱監督が、幾何場と特徴表現の学習にどのように影響するか。
主な発見
- RTNsは弱教師付きおよび教師ありのいずれの方法と比較して、意味的対応ベンチマークで最先端の性能を達成する。
- 本手法は試験データセットで3–5回の反復で収束し、より大きな探索窓はある程度まで精度を向上させる。
- 共同学習された特徴抽出ネットワークと幾何学的マッチングネットワークは、固定事前学習バックボーンよりも性能を上回る。
- 局所的に変化するジオメトリの推定は、グローバルに変化するアプローチよりもより正確な局在化をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。