QUICK REVIEW

[論文レビュー] Gated Siamese Convolutional Neural Network Architecture for Human Re-Identification

Rahul Rama Varior, Mrinal Haloi|arXiv (Cornell University)|Jul 28, 2016

Video Surveillance and Tracking Methods参考文献 51被引用数 73

ひとこと要約

本稿では、人間の再識別を向上させるために、画像ペア間で中位の局所特徴を動的に強調する学習可能なマッチングゲート（MG）を備えたゲート付きシamese畳み込みニューラルネットワーク（S-CNN）を提案する。異なるiableなガウスゲーティング関数を用いて水平ストライプ特徴を比較することで、ネットワークは判別的な局所パターンを適応的に強化し、強力なベースラインS-CNNに対してCUHK03で4.2%、Market-1501（SQ）で3.56%のRank-1向上を達成し、最先端の性能を実現した。

ABSTRACT

Matching pedestrians across multiple camera views, known as human re-identification, is a challenging research problem that has numerous applications in visual surveillance. With the resurgence of Convolutional Neural Networks (CNNs), several end-to-end deep Siamese CNN architectures have been proposed for human re-identification with the objective of projecting the images of similar pairs (i.e. same identity) to be closer to each other and those of dissimilar pairs to be distant from each other. However, current networks extract fixed representations for each image regardless of other images which are paired with it and the comparison with other images is done only at the final level. In this setting, the network is at risk of failing to extract finer local patterns that may be essential to distinguish positive pairs from hard negative pairs. In this paper, we propose a gating function to selectively emphasize such fine common local patterns by comparing the mid-level features across pairs of images. This produces flexible representations for the same image according to the images they are paired with. We conduct experiments on the CUHK03, Market-1501 and VIPeR datasets and demonstrate improved performance compared to a baseline Siamese CNN architecture.

研究の動機と目的

ペア画像の文脈に適応できない固定特徴表現の限界を解消すること。
画像ペア間の共通する局所パターンを特定的に強調することで、ハードネガティブペアの判別を向上させること。
中位の特徴に作用する微分可能で学習可能なゲーティング機構を設計し、特徴伝搬を強化すること。
今後の教師あり再識別手法のための強力なベースラインS-CNNを、標準ベンチマークで確立すること。
実行時特徴選択によるゲーティングが、特徴の判別性と検索性能を向上させることを実証すること。

提案手法

ペア画像の水平ストライプに沿った中位特徴を比較して類似度スコアを計算するマッチングゲート（MG）を提案する。
ストライプレベルの特徴要約間のユークリッド距離を計算し、その後ガウス活性化関数を適用して[0,1]の範囲のゲート値を生成する。
学習されたゲート値を用いて高層の特徴をゲート処理し、強化することで判別性の高い表現を向上させる。
微分可能でパrametricな関数としてMGを統合し、エンドツーエンドのバックプロパゲーションと共同学習を可能にする。
共有重みを用いたシamese CNNアーキテクチャを採用し、畳み込みブロック間の間にMGモジュールを統合する。
埋め込み空間内でポジティブペアを近づけ、ネガティブペアを遠ざけるためにマージン付きのトリプレット損失を用いて学習する。

実験結果

リサーチクエスチョン

RQ1中位特徴を比較する学習可能なゲーティング機構が、人間再識別におけるシamese CNNの性能を向上させられるか？
RQ2ペア画像の類似度に基づく動的で文脈に適応した特徴強化が、ハードネガティブペアの判別を向上させるか？
RQ3提案されたマッチングゲートが、標準的な再識別ベンチマークで固定表現のシameseネットワークを上回れるか？
RQ4ゲーティング機構は、低層および中層での勾配の流れと特徴学習をどのように向上させるか？
RQ5提案手法は、ベースラインS-CNNと比較して、平均平均精度（mAP）およびRank-1精度をどの程度向上させるか？

主な発見

提案されたゲート付きシamese CNNは、ベースラインS-CNNと比較してCUHK03データセットでRank-1精度に4.2%の向上を達成した。
Market-1501データセットでは、単一クエリ（SQ）設定で3.56%、複数クエリ（MQ）設定で3.12%のRank-1精度向上を達成した。
最終的なアーキテクチャは、Market-1501（SQ）でmAPが3.32%向上、Market-1501（MQ）で3.06%、CUHK03で3.27%向上し、より優れた検索性能を示した。
可視化により、マッチングゲートがポジティブペア間の対応する局所領域（例：帽子、バッグ）で強く活性化され、類似しない領域は抑制されていることが確認された。
ゲーティング機構により、低層への勾配伝搬が強化され、判別性の高い局所パターンを抽出するフィルタの学習が促進された。
ベースラインS-CNNは、すべての3つのデータセットで多くの先行するディープラーニングおよびハンドクラフト手法を上回り、強力な性能ベンチマークを確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。