QUICK REVIEW

[論文レビュー] Deep Recurrent Convolutional Networks for Video-based Person Re-identification: An End-to-End Approach

Lin Wu, Chunhua Shen|arXiv (Cornell University)|Jun 6, 2016

Video Surveillance and Tracking Methods参考文献 5被引用数 56

ひとこと要約

本論文は、空間的・時間的特徴と類似度メトリックを同時に学習するエンド・ツー・エンドの深層再帰的畳み込みネットワーク（Deep RCN）を、動画ベースの人物再識別に対して提案している。マルチレベルCNN特徴とゲート付き再帰ユニット（GRUs）を用いてフレーム間の動きのパターンをモデル化し、その後に時間的プーリングを適用することで、iLIDS-VID（KISSMEを併用した際のランク-1正答率46.1%）およびPRID2011（KISSMEを併用した際のランク-1正答率69.0%）で最先端の性能を達成し、従来の手法を上回っている。

ABSTRACT

In this paper, we present an end-to-end approach to simultaneously learn spatio-temporal features and corresponding similarity metric for video-based person re-identification. Given the video sequence of a person, features from each frame that are extracted from all levels of a deep convolutional network can preserve a higher spatial resolution from which we can model finer motion patterns. These low-level visual percepts are leveraged into a variant of recurrent model to characterize the temporal variation between time-steps. Features from all time-steps are then summarized using temporal pooling to produce an overall feature representation for the complete sequence. The deep convolutional network, recurrent layer, and the temporal pooling are jointly trained to extract comparable hidden-unit representations from input pair of time series to compute their corresponding similarity value. The proposed framework combines time series modeling and metric learning to jointly learn relevant features and a good similarity measure between time sequences of person. Experiments demonstrate that our approach achieves the state-of-the-art performance for video-based person re-identification on iLIDS-VID and PRID 2011, the two primary public datasets for this purpose.

研究の動機と目的

照明、ポーズ、視点、背景の変動が著しい動画シーケンスにおける人物再識別の課題に対処すること。
従来の動画再識別手法における手作業特徴とエンド・ツー・エンドでない学習の限界を克服すること。
動画シーケンスのための判別性の高い空間的・時間的特徴と頑健な類似度メトリックを同時に学習すること。
時間的ダイナミクスと外観の手がかりを用いて、重複のないカメラ視点間での歩行者の有効なマッチングを可能にすること。
訓練ドメイン外のアイデンティティに一般化できるように、学習ドメインのサンプルを超えて一般化可能なメトリックを学習すること。

提案手法

高空間分解能を維持するため、高精度な動きモデリングを可能にするために、各フレームから深層CNNを用いてマルチレベル畳み込み特徴を抽出する。
抽出された特徴をゲート付き再帰ユニット（GRU）ネットワークに供給し、時間的変動をモデル化し、時間ステップにわたる動きのパターンを捉える。
GRUで処理された特徴に対して時間的プーリングを適用し、コン act なシーケンスレベル表現を生成する。
類似度メトリック学習と特徴抽出を同時に最適化するために、対照損失（contrastive loss）を用いてネットワーク全体をエンド・ツー・エンドで学習する。
2つの入力シーケンスのためのツインサブネットワーク間でパラメータを共有することで、一貫性のある特徴学習と類似度計算を保証する。
特徴抽出後に距離メトリック学習（例：KISSMEやLFDA）を統合し、類似度スコアをさらに最適化する。

実験結果

リサーチクエスチョン

RQ1エンド・ツー・エンドの深層学習フレームワークは、動画ベースの人物再識別において、空間的・時間的特徴学習と類似度メトリック学習を同時に最適化できるか？
RQ2再帰ユニットを用いて低レベルCNN特徴をモデル化することで、高レベル特徴や固定フレーム選択と比較して、動きのパターンの捉え方を向上させられるか？
RQ3提案手法は、監視アプリケーションで求められるゼロショットまたはドメイン外設定において、未観測のアイデンティティに一般化できるか？
RQ4時間的プーリングとGRUsを統合することで、フレームレベルの集約やマルチレベル特徴統合なしの再帰モデルと比較して、性能にどのような影響を与えるか？
RQ5対照損失を用いたエンド・ツー・エンド学習は、パイプラインベースの手法と比較して、再識別精度をどの程度向上させるか？

主な発見

提案されたDeep RCNは、KISSME距離メトリックを併用した際、iLIDS-VIDデータセットで46.1%のランク-1正答率を達成し、すべての先行最先端手法を上回っている。
PRID2011データセットでは、KISSMEを併用した際の正答率が69.0%に達し、STFV3D+KISSMEを用いた前回の最高記録64.1%を顕著に上回っている。
両データセットにおいて、HOG3D、FV2D、FV3D、STFV3Dベースラインと比較して、すべての指標で優れた性能を示しており、深層的かつエンド・ツー・エンドの特徴学習の優位性を実証している。
距離メトリック学習（KISSMEまたはLFDA）の統合により性能がさらに向上しており、学習された特徴がメトリック学習と高い相性であることが示唆されている。
GRUで処理された特徴の時間的プーリングは、長期的な動きと外観ダイナミクスを効果的に要約し、頑健なシーケンスレベル表現を可能にしている。
マルチレベルCNN特徴の使用により、単一レベルまたは高レベル特徴のみを用いる場合と比較して、微細な動きのパターンのモデリングがより良くなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。