QUICK REVIEW

[論文レビュー] Multiregion Bilinear Convolutional Neural Networks for Person Re-Identification

Evgeniya Ustinova, Yaroslav Ganin|arXiv (Cornell University)|Dec 16, 2015

Video Surveillance and Tracking Methods被引用数 33

ひとこと要約

本論文は、局所的な画像領域における双線形プーリングを適用することで空間的構造を保持するMulti-region Bilinear Convolutional Neural Networks (MR B-CNN)を提案する。これにより、グローバルなプーリングとは異なり、特徴表現が向上する。この手法は、Market-1501、CUHK01、CUHK03のデータセットで最先端の性能を達成し、標準的なCNNやグローバルな双線形CNNよりも、局所的で乗法的な特徴相互作用を通じてより判別力のある埋め込みを学習することで優れている。

ABSTRACT

In this work we propose a new architecture for person re-identification. As the task of re-identification is inherently associated with embedding learning and non-rigid appearance description, our architecture is based on the deep bilinear convolutional network (Bilinear-CNN) that has been proposed recently for fine-grained classification of highly non-rigid objects. While the last stages of the original Bilinear-CNN architecture completely removes the geometric information from consideration by performing orderless pooling, we observe that a better embedding can be learned by performing bilinear pooling in a more local way, where each pooling is confined to a predefined region. Our architecture thus represents a compromise between traditional convolutional networks and bilinear CNNs and strikes a balance between rigid matching and completely ignoring spatial information. We perform the experimental validation of the new architecture on the three popular benchmark datasets (Market-1501, CUHK01, CUHK03), comparing it to baselines that include Bilinear-CNN as well as prior art. The new architecture outperforms the baseline on all three datasets, while performing better than state-of-the-art on two out of three. The code and the pretrained models of the approach can be found at https://github.com/madkn/MultiregionBilinearCNN-ReId.

研究の動機と目的

ポーズ、照明、衣服の類似性による顕著な外見変動の影響を軽減する。
グローバルプーリングによって失われる幾何的情報を避けるために、双線形CNNにおける局所的な空間的構造を保持することで特徴表現を向上させる。
不変性と空間的感受性の両立を図る、標準CNNとグローバル双線形CNNの中間的なアーキテクチャを開発する。
局所的双線形プーリングを活用することで、主なre-identificationベンチマークで最先端の性能を達成する。

提案手法

入力画像を3つの水平領域（上半身、中央部、下半身）に分割し、領域固有の双線形プーリングを適用する。
各領域に対して、2つのストリームネットワークの活性化マップの外積を計算し、その後に局所的平均プーリングを実行する。
得られた領域別双線形特徴を連結し、ドロップアウトを適用した全結合層を経て記述子学習を実行する。
メトリック学習を最適化するため、ヒストグラム損失を用いてモデルを学習する。これにより、コサイン距離やユークリッド距離による効果的な比較が可能になる。
パラメータ効率を維持するため、領域間で共有された畳み込み層を用いたマルチスケール特徴抽出戦略を採用する。
より小さなデータセットでの一般化を向上させるために、CUHK03で事前学習し、CUHK01で微調整する戦略を適用する。

実験結果

リサーチクエスチョン

RQ1グローバルプーリングと比較して、局所的双線形プーリングはperson re-identificationの性能向上に寄与するか？
RQ2双線形特徴における空間的構造の保持は、re-identificationのためのより優れた判別力のある埋め込みをもたらすか？
RQ3提案されたマルチリージョン双線形CNNは、標準CNNおよびグローバル双線形CNNと比較して、標準ベンチマークでどのように性能を発揮するか？
RQ4このアーキテクチャは、データスケールやアノテーション品質が異なるデータセットに対しても良好に一般化できるか？
RQ5re-identificationタスクのパフォーマンスを最大化するために、最適な領域サイズとプーリング戦略は何か？

主な発見

Market-1501データセットにおいて、MR B-CNNはリコール@1が66.36%を達成し、ベースラインCNN（56.62%）およびグローバルB-CNN（63.67%）を上回った。
CUHK01データセットでは、MR B-CNNはリコール@1が52.88%を達成し、シングルショットプロトコルでベースラインCNN（48.04%）およびグローバルB-CNN（47.53%）を上回った。
CUHK03-ラベル付きデータセットでは、MR B-CNNはリコール@1が87.06%を達成し、グローバルB-CNN（85.75%）およびベースラインCNN（82.15%）を上回った。
Market-1501では平均平均精度（mAP）が41.17%を達成し、ベースラインCNN（32.97%）を上回り、先行する最先端手法をも凌駆した。
アブレーションスタディの結果、グローバル双線形プーリングは空間的構造の損失により性能が劣ることが確認され、一方で領域別プーリングはすべてのデータセットで顕著な性能向上をもたらした。
アーキテクチャは良好に一般化し、3つのベンチマークデータセットのうち2つ（Market-1501およびCUHK03）で最先端の結果を達成し、CUHK01でも優れた性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。