QUICK REVIEW

[論文レビュー] Survey on Deep Learning Techniques for Person Re-Identification Task

Bahram Lavi, Mehdi Fatan Serj|arXiv (Cornell University)|Jul 13, 2018

Video Surveillance and Tracking Methods参考文献 27被引用数 30

ひとこと要約

本サーベイは2014年から2017年までの人物再識別（PReID）におけるディーブラーニング手法の包括的概要を提供し、最先端のモデル、損失関数、活性化関数、ベンチマークデータセットを分析している。コントラスト損失およびトリプレット損失を用いたシアンセイおよびトリプレットネットワークの優位性が強調され、i-LIDSではトップモデルで85%のRank-1精度、PRID-2011では78%を達成している。一方で、実世界のパフォーマンス向上のため、軽量で効率的なモデルとより大きなトレーニングデータの必要性が強調されている。

ABSTRACT

Intelligent video-surveillance is currently an active research field in computer vision and machine learning techniques. It provides useful tools for surveillance operators and forensic video investigators. Person re-identification (PReID) is one among these tools. It consists of recognizing whether an individual has already been observed over a camera in a network or not. This tool can also be employed in various possible applications such as off-line retrieval of all the video-sequences showing an individual of interest whose image is given a query, and online pedestrian tracking over multiple camera views. To this aim, many techniques have been proposed to increase the performance of PReID. Among the systems, many researchers utilized deep neural networks (DNNs) because of their better performance and fast execution at test time. Our objective is to provide for future researchers the work being done on PReID to date. Therefore, we summarized state-of-the-art DNN models being used for this task. A brief description of each model along with their evaluation on a set of benchmark datasets is given. Finally, a detailed comparison is provided among these models followed by some limitations that can work as guidelines for future research.

研究の動機と目的

2014年から2017年までの人物再識別（PReID）のための最先端のディープニューラルネットワーク（DNN）モデルを要約すること。
PReIDで用いられる損失関数、活性化関数、ネットワークアーキテクチャといった主要な構成要素を分析すること。
Market-1501、CUHK03、VIPeR、i-LIDS、PRID-2011といった標準ベンチマークデータセット上でモデルのパフォーマンスを評価すること。
トレーニングデータ不足、モデルサイズ、処理時間といった制限要因を特定し、今後の研究方向を示唆すること。

提案手法

2014年から2017年までのPReIDにおけるディーブラーニングに関する文献を体系的レビューし、DNNベースのモデルに焦点を当てる。
コントラスト損失およびトリプレット損失といった特定の損失関数を用いた、シアンセイ、トリプレット、メトリック学習フレームワークに分類する。
特にシアンセイネットワークにおける類似度計算に用いられる双曲正接関数（hyperbolic-tangent）を含む活性化関数の分析。
Market-1501、CUHK01、VIPeR、i-LIDS、PRID-2011、MARSといった標準ベンチマークデータセット上でモデルを評価する。
Rank-1精度と処理時間という指標を用いてモデルのパフォーマンスを比較する。
モデル効率性、パラメータ削減、多段階ランク付けシステムについて議論し、精度と推論速度のバランスを取る。

実験結果

リサーチクエスチョン

RQ12014年から2017年の間、人物再識別タスクにおいてどのディーブラーニングアーキテクチャと損失関数が最も高いパフォーマンスを示したか？
RQ2異なるベンチマークデータセット上で、シアンセイネットワークとトリプレットネットワークは、精度と頑健性の観点からどのように比較されるか？
RQ3限られたトレーニングデータ、視点の変化、隠蔽といったPReIDの主な課題は何か？そして、現在のモデルはそれらに対しどのように対処しているか？
RQ4モデルサイズと推論速度が実世界での導入にどの程度影響を及ぼすか？また、精度を損なわずに効率性をどのように向上できるか？
RQ5なぜVIPeRデータセットは最も挑戦的なベンチマークと見なされるのか？そのパフォーマンスギャップは、モデルの一般化能力について何を示唆しているのか？

主な発見

[61]におけるペアワイズシアンセイネットワークは、i-LIDSデータセットで85%のRank-1精度を達成し、当時他のモデルを上回った。
[66]におけるトリプレットシアンセイネットワークは、PRID-2011データセットで78%のRank-1精度を達成し、空間的・時間的モデリングにおいて優れたパフォーマンスを示した。
[58]のモデルはWARDデータセットでほぼ最適なパフォーマンスを達成しており、現在のアプローチではさらなる向上の余地が限られていることを示唆している。
VIPeRデータセットは依然として最も挑戦的なベンチマークのままであり、広範な研究にもかかわらず、性能向上の余地が限定的で、ポーズや視点の変化への対処の難しさが顕著に表れている。
大規模データセットでは高い精度を達成しているが、多くのモデルが高い計算コストを伴い、軽量アーキテクチャの必要性が強調されている。
大多数のモデルはバックプロパゲーションを用いたSGDに依存しており、類似度計算にはユークリッド距離が用いられ、活性化関数として双曲正接関数（hyperbolic-tangent）が一般的に使われている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。