QUICK REVIEW

[論文レビュー] Cross-view Asymmetric Metric Learning for Unsupervised Person Re-identification

Hong-Xing Yu, Ancong Wu|arXiv (Cornell University)|Aug 27, 2017

Video Surveillance and Tracking Methods参考文献 20被引用数 45

ひとこと要約

本稿では、ラベルなしクロスビュー画像を用いた自己教師付き人物再識別におけるカメラ固有バイアスを軽減するための、視点別プロジェクションを学習するクロスビュー非対称的メトリック学習フレームワークCAMELを提案する。非ペairedなクロスビュー画像の同時クラスタリングと非対称的メトリックの最適化により、大規模な自己教師付きRE-IDベンチマークで最先端の性能を達成し、従来の自己教師付きおよび教師ありベースラインを上回る。

ABSTRACT

While metric learning is important for Person re-identification (RE-ID), a significant problem in visual surveillance for cross-view pedestrian matching, existing metric models for RE-ID are mostly based on supervised learning that requires quantities of labeled samples in all pairs of camera views for training. However, this limits their scalabilities to realistic applications, in which a large amount of data over multiple disjoint camera views is available but not labelled. To overcome the problem, we propose unsupervised asymmetric metric learning for unsupervised RE-ID. Our model aims to learn an asymmetric metric, i.e., specific projection for each view, based on asymmetric clustering on cross-view person images. Our model finds a shared space where view-specific bias is alleviated and thus better matching performance can be achieved. Extensive experiments have been conducted on a baseline and five large-scale RE-ID datasets to demonstrate the effectiveness of the proposed model. Through the comparison, we show that our model works much more suitable for unsupervised RE-ID compared to classical unsupervised metric learning models. We also compare with existing unsupervised RE-ID methods, and our model outperforms them with notable margins. Specifically, we report the results on large-scale unlabelled RE-ID dataset, which is important but unfortunately less concerned in literatures.

研究の動機と目的

ラベルなしのクロスビューデータが利用できない自己教師付き人物再識別における課題に対処すること。これにより、教師あり手法のスケーラビリティが制限される。
照明の変化、隠蔽、視点の変化といった視点固有バイアスを克服すること。これらは自己教師付き設定におけるマッチング性能を低下させる要因である。
異なるカメラ視点ごとに非対称的変換を明示的にモデル化するメトリック学習フレームワークを開発すること。これにより、非連結なカメラ視点間での特徴の整合性を向上させる。
大規模なラベルなし監視データの有効活用を可能とし、視点固有の歪みを低減する共通の埋め込み空間を学習すること。

提案手法

各カメラ視点に固有の射影行列を持つ非対称的メトリック学習の定式化を提案：$ d( extbf{x}_i^p, extbf{x}_j^q) = Vert extbf{U}^{p op} extbf{x}_i^p - extbf{U}^{q op} extbf{x}_j^q Vert_2 $。これにより、各視点ごとに異なる変換が可能となる。
クラスタリング（例：k-means）をメトリック学習と統合し、共通空間内で視点別プロジェクションとクラスタ割り当てを同時に最適化する。
反復的なアルゴリズムを用いてクラスタ割り当てを改善し、射影行列を更新することで、クラスタリングの質とメトリックの整合性を同時に向上させる。
クラスタリングを最終目的としてではなく、視点固有バイアスを低減する非対称的メトリックの学習を導く手段として活用する。
深層特徴（例：JSTL）とハンドクラフト特徴（例：LOMO）の両方に対して適用し、異なる特徴タイプへの一般化を実証する。
クラスタリングの一貫性とメトリック学習性能のバランスを取る統合目的関数を用いて、モデルをエンドツーエンドで最適化する。

実験結果

リサーチクエスチョン

RQ1非対称的メトリック学習は、ラベルなしの条件下で視点固有バイアスを効果的に低減できるか？
RQ2CAMELの性能は、対称的メトリック学習および古典的な自己教師付きクラスタリング手法と比較して、クロスビューマッチングにおいてどのように異なるか？
RQ3特に高次元特徴を持つ大規模データセットにおいて、CAMELはクラスタ数（K）に対してどれほど頑健か？
RQ4CAMEルは、深層特徴とハンドクラフト特徴の両方の特徴表現に一般化可能か？自己教師付き設定下で有効か？
RQ5クラスタリングに基づくメトリック学習フレームワークは、大規模なラベルなしデータセットにおいて、既存の自己教師付きRE-ID手法を上回る性能を示せるか？

主な発見

ExMarketデータセットにおいて、マルチショット設定で55.9%のランク-1精度を達成し、次に優れた手法を10ポイント以上上回った。
Market1501データセットでは、マルチショット評価で54.5%のランク-1精度を達成し、ベースラインの$L_2$距離（27.4%）およびD提起やISRといった先行の自己教師付き手法を顕著に上回った。
CAMELの対称版（CMEL）は非対称バージョンに比べて著しく性能が低いことが示され、視点別モデリングが性能向上に不可欠であることが裏付けられた。
CAMELはクラスタ数（K）に対してほとんど感度を示さず、CUHK01、Market、ExMarketの全データセットでK = 250から1250の範囲で性能の変動が僅かであった。
収束段階では、1つのクラスタに複数の人物が含まれる割合が、初期状態の77.6%から収束時の55.8%に低下し、反復処理に伴いクラスタ品質が向上していることが示された。
512次元のLOMO特徴を用いた場合、ExMarketで42.2%のランク-1精度を達成し、Dic（33.8%）を上回り、ISR（結果なし）をも凌駕した。これにより、異なる特徴タイプに対しても有効性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。