Skip to main content
QUICK REVIEW

[論文レビュー] Embedding Deep Metric for Person Re-identication A Study Against Large Variations

Hailin Shi, Yang Yang|arXiv (Cornell University)|Nov 1, 2016
Video Surveillance and Tracking Methods参考文献 15被引用数 69
ひとこと要約

本論文は、大規模なクラス内変動下における人物再識別における深層度画像学習の向上を目的として、新しい中程度の正例マイニング戦略および度画像層重み制約を提案する。局所的特徴ネighbourhood内での中程度の正例ペアの適応的選択と度画像層重みの正則化を通じて、CUHK03およびCUHK01では最先端性能を達成し、VIPeRでは競争力のある結果を示した。CUHK01では69%のランク-1正答率、VIPeRでは40.91%を達成した。

ABSTRACT

Person re-identification is challenging due to the large variations of pose, illumination, occlusion and camera view. Owing to these variations, the pedestrian data is distributed as highly-curved manifolds in the feature space, despite the current convolutional neural networks (CNN)'s capability of feature extraction. However, the distribution is unknown, so it is difficult to use the geodesic distance when comparing two samples. In practice, the current deep embedding methods use the Euclidean distance for the training and test. On the other hand, the manifold learning methods suggest to use the Euclidean distance in the local range, combining with the graphical relationship between samples, for approximating the geodesic distance. From this point of view, selecting suitable positive i.e. intra-class) training samples within a local range is critical for training the CNN embedding, especially when the data has large intra-class variations. In this paper, we propose a novel moderate positive sample mining method to train robust CNN for person re-identification, dealing with the problem of large variation. In addition, we improve the learning by a metric weight constraint, so that the learned metric has a better generalization ability. Experiments show that these two strategies are effective in learning robust deep metrics for person re-identification, and accordingly our deep model significantly outperforms the state-of-the-art methods on several benchmarks of person re-identification. Therefore, the study presented in this paper may be useful in inspiring new designs of deep models for person re-identification.

研究の動機と目的

  • ポーズ、照明、視点の変化に起因する人物再識別における大規模なクラス内変動の課題に対処すること。
  • 現在の深層学習手法が、特に曲がった特徴多様体上での正例トレーニングサンプルの慎重な選択を無視していることに気づくこと。
  • 内在的なデータ構造をよりよく捉えるために、中程度の正例マイニング戦略を導入することで深層度画像学習を改善すること。
  • 度画像層への新しい重み制約を導入することで、一般化性能を向上させ、過学習を低減すること。
  • 大規模な変動にもかかわらず、主要な人物再識別ベンチマークで最先端の性能を達成すること。

提案手法

  • 特徴空間内の局所的近傍で中程度の正例ペアを適応的に選択する中程度の正例マイニング戦略を提案し、極端なクラス内変動を回避すること。
  • 局所的ユークリッド距離とサンプル間のグラフィカル関係を組み合わせて、曲がった多様体上の測地線距離を近似すること。
  • 度画像学習層の重みを正則化するための新しい重み制約を導入し、一般化性能の向上と過学習の低減を図ること。
  • 新たに選択された中程度の正例ペアを用いてトリプレット損失を最適化することで、特徴の識別能を向上させること。
  • 複数のデータセット(例:CUHK03 → CUHK01)で微調整を行い、データオーグメンテーション(例:ランダムな平行移動)を適用して耐性を高めること。
  • 大規模なデータセットからの事前学習済み特徴とトランスファー学習を活用し、VIPeRのような小さなベンチマークでも性能を向上させること。

実験結果

リサーチクエスチョン

  • RQ1大規模なクラス内変動下における人物再識別における正例トレーニングサンプルの選択が、深層度画像学習にどのように影響するか?
  • RQ2曲がった特徴多様体上では、局所的ユークリッド距離とグラフィカル関係を組み合わせた手法が、測地線距離を効果的に近似できるか?
  • RQ3極端でない正例ペアを選択する中程度の正例マイニングは、標準的なハードネガティブマイニングと比較して、モデルの耐性と正確性を向上させるか?
  • RQ4度画像層への重み制約が、過学習の低減と一般化性能の向上にどの程度寄与するか?
  • RQ5提案手法は、CUHK03、CUHK01、VIPeRといった標準ベンチマークで最先端の性能を達成できるか?

主な発見

  • 提案手法は、CUHK01データセットで69%のランク-1識別率を達成し、以前の最先端手法を上回った。
  • Market1501で微調整し、CUHK03で学習した場合、CUHK01でのランク-1正答率が87%に達し、より大きなトレーニングデータの利点を示した。
  • 挑戦的なVIPeRデータセットでは、40.91%のランク-1識別率を達成し、深層学習ベースのアプローチの中で最高水準であった。
  • 真の正例と類似色の負例ペアとの間の色の不一致に起因する失敗事例が顕著に減少した。これは、実世界の監視環境で一般的な問題である。
  • アブレーションスタディにより、中程度の正例マイニングと重み制約が、特にクラス内分散の低減において、独立して性能向上に寄与することが確認された。
  • 可視化結果から、学習されたフィルタが色の特徴に注目しており、中程度の正例を使用した場合、照明や色の変動に対して頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。