Skip to main content
QUICK REVIEW

[論文レビュー] The Devil is in the Middle: Exploiting Mid-level Representations for Cross-Domain Instance Matching

Qian Yu, Xiaobin Chang|arXiv (Cornell University)|Nov 22, 2017
Advanced Image and Video Retrieval Techniques参考文献 37被引用数 80
ひとこと要約

この論文は、中間層のCNN特徴マップがドメインをまたぐインスタンスマッチングに対して判別的でドメイン不変な情報を含むことを示し、最終層の特徴と融合すべきであることを示しており、FG-SBIRと person ReID で新しい最先端を達成している。

ABSTRACT

Many vision problems require matching images of object instances across different domains. These include fine-grained sketch-based image retrieval (FG-SBIR) and Person Re-identification (person ReID). Existing approaches attempt to learn a joint embedding space where images from different domains can be directly compared. In most cases, this space is defined by the output of the final layer of a deep neural network (DNN), which primarily contains features of a high semantic level. In this paper, we argue that both high and mid-level features are relevant for cross-domain instance matching (CDIM). Importantly, mid-level features already exist in earlier layers of the DNN. They just need to be extracted, represented, and fused properly with the final layer. Based on this simple but powerful idea, we propose a unified framework for CDIM. Instantiating our framework for FG-SBIR and ReID, we show that our simple models can easily beat the state-of-the-art models, which are often equipped with much more elaborate architectures.

研究の動機と目的

  • 異なるドメインで撮影された物体を対象とするクロスドメインインスタンスマッチング(CDIM)の動機付けと課題設定(例: 写真-スケッチ、マルチカメラReID)。
  • 初期のCNN層に中間レベルの特徴が存在し、高レベルの特徴とともにCDIMにとって重要であると主張する。
  • 中間レベルの表現を最終層の特徴と融合する統一されたアーキテクチャパターンを提案する。
  • FG-SBIRとperson ReIDの具現化を用いて本手法を実証し、最先端の結果を達成する。

提案手法

  • 3部構成のCDIM設計パターンを提案する:CNNベースネットワーク、融合モジュール、損失モジュール。
  • 選択された中間層から中間レベルの特徴マップを抽出し、中間レベルの特徴ベクトルに変換して、最終層の特徴と過度な次元削減を行わずに融合する。
  • FG-SBIRでは、中間の conv5 特徴を平坦化して空間情報を保持し、最終の fc7 特徴と結合し、トリプレットランキング損失で学習する。
  • ReIDでは、中間の res5a/res5b 特徴にグローバル平均プーリングを適用し、プーリングされたトップレイヤー特徴と結合し、ソフトマックス分類損失で学習する。
  • 中間レベルの特徴には深層監視とタスク特化のプーリング戦略(FG-SBIRはフラット化、ReIDはGAP)が必要であることを示す。
  • 中間レベルと高レベルの特徴を結合することで、素の最終層表現や注意機構ベースのベースラインより性能が向上することを示す。

実験結果

リサーチクエスチョン

  • RQ1CNNの中間レベル表現には、CDIMに有用なドメイン不変な識別情報が含まれているか?
  • RQ2中間レベルの特徴マップと最終層の特徴の単純な融合は、より精巧な注意機構ベースのCDIM手法よりも優れているか?
  • RQ3FG-SBIRとperson ReIDのための中間レベル特徴融合の有効性を最大化するプーリング戦略と層の選択は何か?

主な発見

  • 中間層の特徴マップは、クロスドメインマッチングに有用な識別可能で空間的に局在した手掛かりを含む。
  • 中間レベルと最終層の特徴を深層監視とともに単純に融合することで、ベースラインよりCDIMの性能が向上する。
  • 提案手法はFG-SBIRデータセット(靴、椅子、ハンドバッグ)と3つの person ReID ベンチマーク(Market-1501、DukeMTMC_reID、CUHK03-New)で新しい最先端結果を達成している。
  • タスク特異的なプーリング(FG-SBIRはフラット化、ReIDはGAP)と最終層近くの中間層を結合することが有益である。
  • Sketch-a-Net、ResNet-50、InceptionV3など異なるベースネットワークと中間レベル特徴を組み合わせての利用は一貫して性能を向上させ、フレームワークの適用性を検証している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。