Skip to main content
QUICK REVIEW

[論文レビュー] Multi-Level Factorisation Net for Person Re-Identification

Xiaobin Chang, Timothy M. Hospedales|arXiv (Cornell University)|Mar 24, 2018
Video Surveillance and Tracking Methods参考文献 11被引用数 74
ひとこと要約

MLFN は、複数のセマンティックレベルにわたる潜在的な識別因子を自動的に発見し、動的に選択し、コンパクトな Factor Signature を深い特徴と融合して、最先端の person Re-ID 結果を達成します。

ABSTRACT

Key to effective person re-identification (Re-ID) is modelling discriminative and view-invariant factors of person appearance at both high and low semantic levels. Recently developed deep Re-ID models either learn a holistic single semantic level feature representation and/or require laborious human annotation of these factors as attributes. We propose Multi-Level Factorisation Net (MLFN), a novel network architecture that factorises the visual appearance of a person into latent discriminative factors at multiple semantic levels without manual annotation. MLFN is composed of multiple stacked blocks. Each block contains multiple factor modules to model latent factors at a specific level, and factor selection modules that dynamically select the factor modules to interpret the content of each input image. The outputs of the factor selection modules also provide a compact latent factor descriptor that is complementary to the conventional deeply learned features. MLFN achieves state-of-the-art results on three Re-ID datasets, as well as compelling results on the general object categorisation CIFAR-100 dataset.

研究の動機と目的

  • 複数のセマンティックレベルにわたる人の外観の識別可能で視点不変な因子をモデリングする動機づけ。
  • 手動属性アノテーションなしで潜在因子を発見する深層アーキテクチャを提案。
  • コンパクトな多層ファクター表現を有効にし、それを従来の深層特徴と融合して識別性能を向上。
  • ショートカ connectivity を介した learned factors への深部監督を提供。
  • 主要な Re-ID ベンチマークで最先端の性能を示し、CIFAR-100 への適用性を示す。

提案手法

  • スタックブロックからなる Multi-Level Factorisation Net (MLFN) を導入する。各ブロックは複数の Factor Modules (FMs) と Factor Selection Module (FSM) を含む。
  • FSM は特定のセマンティックレベルで潜在因子をモデル化するために FMs のサブセットを動的にアクティブ化する。
  • 全ブロックの FSM 出力を結合して Factor Signature (FS) を生成し、マルチレベルの因子を表現する。
  • 最終ブロックの特徴を FS を介して共有投影とともに結合し、最終表現 R を形成する。
  • アイデンティティ分類損失でエンドツーエンドに学習する;スキップ接続と FS ベースの深部監督で因子の識別性を高める。
  • MLFN を ResNeXt および Mixture-of-Experts の一般化として解釈し、動的な因子選択とコンパクトなセマンティック記述子を持つ。
  • FS のみを属性推定のようなマッチングに使用して潜在的属性の相関を明らかにするオプションがある。

実験結果

リサーチクエスチョン

  • RQ1属性アノテーションなしで潜在的で多層の外観因子を自動的に発見できるか?
  • RQ2入力ごとに動的に選択される Factor Modules (FSMs) はセマンティックレベルを跨いで識別的で視点不変な特徴を提供するか?
  • RQ3コンパクトな Factor Signature を最終的な深層特徴と組み合わせることで、従来の深層特徴だけを用いる場合より Re-ID の性能は向上するか?
  • RQ4学習された潜在因子は解釈可能な属性に対応し、データセット越えの一般化を助けるか?
  • RQ5このアプローチは主要な person Re-ID ベンチマークで最先端の結果を達成し、一般的な物体分類にも適用可能か?

主な発見

  • MLFN は Market-1501, CUHK03, および DukeMTMC-reID データセットで最先端の結果を達成。
  • Market-1501 では SQ で R1 が 90.0、mAP が 74.3、MQ で R1 が 92.3、mAP が 82.4。
  • CUHK03 Setting 1 (detected bounding boxes) で MLFN は R1 が 82.8%、mAP が 89.2%、検出データをより強い設定で用いると 89.2% R1 以上、さらに高くなる。
  • CUHK03 Setting 2 では MLFN は 54.7% R1、49.2% mAP(ラベル付き)、検出済みでは 52.8% R1、47.8% mAP。
  • DukeMTMC-reID では MLFN は 81.0% R1、62.8% mAP。
  • MLFN-Fusion (FS 含む) は ResNeXt および ResNet ベースラインを上回り、動的 FSM ベースの因子選択は従来の変数削減型のバリアントを上回る。
  • Factor Signature のみでも属性推定に似た競争力のある性能を提供し、FS を深層特徴と融合すると R が改善される。
  • 潜在因子は視覚的にセマンティック属性と階層的に整合しており、色・質感から衣服スタイル・性別へと属性監督なしで進化している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。