Skip to main content
QUICK REVIEW

[論文レビュー] Deep Association Learning for Unsupervised Video Person Re-identification

Yanbei Chen, Xiatian Zhu|arXiv (Cornell University)|Aug 22, 2018
Video Surveillance and Tracking Methods被引用数 59
ひとこと要約

本論文は Deep Association Learning (DAL) を提案します。これは end-to-end の無監督ビデオ再識別方法で、 intra-camera と cross-camera のアソシエーション損失を共同最適化して、アイデンティティラベルなしで識別性の高い特徴を学習します。PRID 2011、iLIDS-VID、および MARS で最先端の結果を達成します。

ABSTRACT

Deep learning methods have started to dominate the research progress of video-based person re-identification (re-id). However, existing methods mostly consider supervised learning, which requires exhaustive manual efforts for labelling cross-view pairwise data. Therefore, they severely lack scalability and practicality in real-world video surveillance applications. In this work, to address the video person re-id task, we formulate a novel Deep Association Learning (DAL) scheme, the first end-to-end deep learning method using none of the identity labels in model initialisation and training. DAL learns a deep re-id matching model by jointly optimising two margin-based association losses in an end-to-end manner, which effectively constrains the association of each frame to the best-matched intra-camera representation and cross-camera representation. Existing standard CNNs can be readily employed within our DAL scheme. Experiment results demonstrate that our proposed DAL significantly outperforms current state-of-the-art unsupervised video person re-id methods on three benchmarks: PRID 2011, iLIDS-VID and MARS.

研究の動機と目的

  • 動画ベースの人の再識別のためのスケーラブルでラベル付きデータの不足に対処するため、無監督のエンドツーエンド CNN アプローチを開発する。
  • ローカルな intra-camera の空間-時間的一致性とグローバルな cross-camera の循環的ランキング的一致性という二つの一貫性を活用して、頑健な表現を学習する。
  • 自己発見のアンカーを通じて効果的なカメラ間トラックレットの関連付けを実現しつつ、手動のアイデンティティラベリングを排除する。

提案手法

  • 各カメラに対する intra-camera アンカー x_{k,i} と、カメラ間で高く結びついた intra-camera アンカーを跨いで統合した cross-camera アンカー a_{k,i} の二つのアンカー集合を導入する。
  • 動的アンカーとトラックレットフレームに対して計算される、マージンベースの top-push アソシエーション損失を二つ定義する: intra-camera ランキングのための L_I と cross-camera ランキングのための L_C。
  • カメラ内学習はフレーム特徴の指数移動平均を用いてアンカーを更新し、トッププッシュを強制してソースのトラックレットがカメラ内で最上位に保たれるようにする。
  • カメラ間学習は intra-camera アンカーの循環ランキングを通じてカメラ間の関連を発見し、循環的一致性が成立する場合にはペアのアンカーを cross-camera アンカーに統合する。
  • L_DAL = L_I + lambda L_C を標準的な SGD/Adam様の最適化手法を用いて、ImageNet で初期化した CNN バックボーン(ResNet50 あるいは MobileNet)上でエンドツーエンドに jointly optimize してモデルを訓練する。
  • 訓練中にバッチ単位の反復手続きを利用して、カメラ間対応を徐々に発見し活用する。

実験結果

リサーチクエスチョン

  • RQ1DAL はアイデンティティラベルなしで有効な動画再識別表現を学習できるか?
  • RQ2カメラ内の局所的一貫性とカメラ間の循環ランキングは、無監督の動画再識別を改善する補完的な監督信号を提供するか?
  • RQ3ラベルなしデータで、標準的な CNN バックボーン上のエンドツーエンド DAL は公開ベンチマークでどの程度性能を発揮するか?
  • RQ4訓練中のカメラ間アソシエーションの割合はどのように推移し、それが再識別性能にどう影響するか?

主な発見

  • DAL は PRID 2011、iLIDS-VID、および MARS で最先端の無監督動画再識別手法を大きく上回る。
  • 前の無監督手法に対する Rank-1 精度の改善は PRID 2011 で 4.4%、iLIDS-VID で 15.2%、MARS で 12.5% である。
  • カメラ間アソシエーションのみでも競争力のある結果を得られ、カメラ内学習と組み合わせるとさらなる改善が見られる。
  • DAL はバックボーン(ResNet50 and MobileNet)を問わず一貫した性能を達成し、標準的なCNNの汎用性を示している。
  • 訓練中に多くのトラックレットがカメラ間で関連付けされる(PRID 2011 で 90%、iLIDS-VID で 75%、MARS で >50%)、発見されたカメラ間ペアの真匹合率が高い。
  • IDラベル付きの教師ありトレーニングと比較すると、DALは小規模データセットで同等の性能に到達し、いくつかのデータセットでは教師ありの性能に近づくことがあり、無監督学習能力の高さを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。