Skip to main content
QUICK REVIEW

[論文レビュー] Region-based Quality Estimation Network for Large-scale Person Re-identification

Guanglu Song, Biao Leng|arXiv (Cornell University)|Nov 23, 2017
Video Surveillance and Tracking Methods参考文献 33被引用数 26
ひとこと要約

本稿では、動画ベースの人物再識別における領域ベースの品質推定ネットワーク(RQEN)を提案する。RQENは、フレーム間の空間的領域の品質を同時に評価し、シーケンス内で高品質な領域から補完的情報を統合する。RQENはPRID 2011(+1.5% top-1精度)およびiLIDS-VID(+9.1% top-1精度)で最先端性能を達成するとともに、7,694トラックレットと590,000枚の画像を有する大規模かつクリーンなLPWデータセットを提供し、現実的なベンチマークを実現する。

ABSTRACT

One of the major restrictions on the performance of video-based person re-id is partial noise caused by occlusion, blur and illumination. Since different spatial regions of a single frame have various quality, and the quality of the same region also varies across frames in a tracklet, a good way to address the problem is to effectively aggregate complementary information from all frames in a sequence, using better regions from other frames to compensate the influence of an image region with poor quality. To achieve this, we propose a novel Region-based Quality Estimation Network (RQEN), in which an ingenious training mechanism enables the effective learning to extract the complementary region-based information between different frames. Compared with other feature extraction methods, we achieved comparable results of 92.4%, 76.1% and 77.83% on the PRID 2011, iLIDS-VID and MARS, respectively. In addition, to alleviate the lack of clean large-scale person re-id datasets for the community, this paper also contributes a new high-quality dataset, named "Labeled Pedestrian in the Wild (LPW)" which contains 7,694 tracklets with over 590,000 images. Despite its relatively large scale, the annotations also possess high cleanliness. Moreover, it's more challenging in the following aspects: the age of characters varies from childhood to elderhood; the postures of people are diverse, including running and cycling in addition to the normal walking state.

研究の動機と目的

  • 部分的なノイズ(遮蔽、ぼやけ、照明変動)による人物再識別性能の低下を是正すること。
  • フレーム間の高品質な領域から選択的に補完的情報を活用することで、動画シーケンス内の特徴統合を向上させること。
  • 全フレームを均一に扱うのではなく、動的に領域ごとの画像品質を評価する手法を構築すること。
  • トレーニングおよび評価のための大規模でクリーンで現実的な人物再識別データセットの不足を解消すること。
  • 多様な年齢、ポーズ、複雑なシーンといった現実世界の課題を反映するベンチマークデータセットを提供すること。

提案手法

  • RQENは、領域特徴生成モジュールと領域ベースの品質予測器を備えた二重スティームアーキテクチャを採用し、分類および検証信号を用いてエンド・ツー・エンドで訓練する。
  • 特徴抽出と品質推定の共同最適化を可能にする新規な勾配設計を採用し、モデルが表現に最も信頼性が高い領域を学習できるようにする。
  • 品質スコアは空間的領域ごとに予測され、シーケンスレベルの統合時に特徴寄与度を重みづけする。高信頼度の領域を強調し、ノイズの強い領域を抑制する。
  • 多段階の特徴学習を適用することで、異なる受容野における階層的表現を捉え、遮蔽や変形に対してより強固な性能を実現する。
  • アイデンティティ分類のためのクロスエントロピー損失とメトリクス学習のためのトリプレット損失を組み合わせて訓練することで、特徴の強力な識別性を実現する。

実験結果

リサーチクエスチョン

  • RQ1部分的遮蔽やノイズ下でも、領域ベースの品質推定メカニズムが動画ベースの人物再識別における特徴表現を改善できるか?
  • RQ2フレーム間の高品質な領域からの補完的情報を、シーケンス内の低品質な領域を補うのにどの程度効果的に活用できるか?
  • RQ3本稿で提案するRQENは、平均プーリングやフレームレベルの重み付けといった従来の統合手法に比べ、困難なシーケンスにおいてどの程度優れているか?
  • RQ4多様なポーズ、年齢、シーンの複雑さを有する大規模で現実的なデータセットにおいて、品質推定メカニズムはどの程度の性能を示すか?
  • RQ5提案されたLPWデータセットは、より現実的で挑戦的な人物再識別モデルのトレーニングおよび評価のためのベンチマークとして機能できるか?

主な発見

  • PRID 2011ではRQENが91.8%のtop-1精度を達成し、前回の最先端手法より1.5%の向上を示した。
  • iLIDS-VIDではRQENが77.1%のtop-1精度を達成し、前回の最先端手法より9.1%の向上を示し、部分的遮蔽に対して強いロバストネスを示した。
  • MARSデータセットでは、ボックスアライメントの問題があるにもかかわらず、RQENは77.83%のtop-1精度を達成し、最先端と同等の性能を示した。
  • 新たに導入されたLPWデータセットでは、RQENはベースライン比でtop-1精度を15.6%向上させ、大規模で現実的なデータに対して有効であることを確認した。
  • アブレーションスタディの結果、品質モジュール(+QM)が性能向上に顕著に寄与していることが確認された。一方、固定品質推定(+QFix)やパラメータ増加(+MP)では劣った結果となり、エンド・ツー・エンドで学習された品質スコアリングの有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。