QUICK REVIEW

[論文レビュー] SVDNet for Pedestrian Retrieval

Yifan Sun, Liang Zheng|arXiv (Cornell University)|Mar 16, 2017

Video Surveillance and Tracking Methods参考文献 24被引用数 123

ひとこと要約

SVDNet は CNN の最後の全結合層を反復的な SVD ベースのデコリレーション（RRI）を用いて相関を取り除き、Market-1501、CUHK03、DukeMTMC-reID での人物再識別精度を向上させる。

ABSTRACT

This paper proposes the SVDNet for retrieval problems, with focus on the application of person re-identification (re-ID). We view each weight vector within a fully connected (FC) layer in a convolutional neuron network (CNN) as a projection basis. It is observed that the weight vectors are usually highly correlated. This problem leads to correlations among entries of the FC descriptor, and compromises the retrieval performance based on the Euclidean distance. To address the problem, this paper proposes to optimize the deep representation learning process with Singular Vector Decomposition (SVD). Specifically, with the restraint and relaxation iteration (RRI) training scheme, we are able to iteratively integrate the orthogonality constraint in CNN training, yielding the so-called SVDNet. We conduct experiments on the Market-1501, CUHK03, and Duke datasets, and show that RRI effectively reduces the correlation among the projection vectors, produces more discriminative FC descriptors, and significantly improves the re-ID accuracy. On the Market-1501 dataset, for instance, rank-1 accuracy is improved from 55.3% to 80.5% for CaffeNet, and from 73.8% to 82.3% for ResNet-50.

研究の動機と目的

分類訓練後の FC 層ウェイトベクトルの冗長性を解消して re-ID を動機付ける。
FC 層で直交投影方向を生成するデコュレーション技術を提案する。
直交性を維持しつつ識別力を保つ三段階の Restraint and Relaxation Iteration (RRI) トレーニングを開発する。
SVDNet を大規模な re-ID ベンチマークで評価し、最先端手法と比較する。

提案手法

ペンultimate FC 層を Eigenlayer として表現し、SVD により得られる直交ウェイト行列を用いる。
W = USV^T から W を US に置き換え、埋め込みの識別力を維持しつつ射影方向の相関をデコリレートする。
三段階のトレーニングループを適用する： (1) SVD によるデコリレーション（W ← US）; (2) Eigenlayer を固定してファインチューニングで抑制（Restraint）; (3) Eigenlayer を固定せずにファインチューニングを継続して緩和（Relaxation）；複数の RRI を繰り返す。
最終 FC 層の前に Eigenlayer を使用（バイアスなし、線形）して直交性を強制し、ユークリッド距離ベースの検索用に改善された埋め込みを生成する。
CaffeNet と ResNet-50 のバックボーンを用い、Eigenlayer の次元を実験で 1024、埋め込みを 1,024 次元としてリトリーバルを実施する。

実験結果

リサーチクエスチョン

RQ1SVD による最後から一つ手前の FC 層のデコリレーションは、識別力を損なうことなくユークリッド距離ベースの再識別取得を改善できるのか？
RQ2反復的な抑制-緩和トレーニングは直交ウェイト行列へ収束し、持続的な性能向上をもたらすのか？
RQ3Eigenlayer の直交性は re-ID タスクの入力埋め込みと出力埋め込みの両方にどのように影響するのか？

主な発見

モデル	Market-1501 ランク-1	Market-1501 mAP	CUHK03 ランク-1	CUHK03 mAP	DukeMTMC-reID ランク-1	DukeMTMC-reID mAP
Baseline(C) FC6	55.3	30.4	38.6	76.8	45.0	-
Baseline(C) FC7	54.6	30.3	42.2	80.4	48.6	-
SVDNet(C) FC6	80.5	55.9	68.5	95.0	73.3	-
SVDNet(C) FC7	79.0	54.6	66.0	93.8	71.1	-
Baseline(R) Pool5	73.8	47.9	66.2	93.2	71.1	-
Baseline(R) FC	71.1	46.0	64.6	95.0	70.0	-
SVDNet(R) Pool5	82.3	62.1	81.8	97.2	84.8	-
SVDNet(R) FC	81.4	61.2	81.2	98.2	84.5	-

SVDNet は Market-1501、CUHK03、DukeMTMC-reID におけるランク1と mAP をベースラインと比較して大幅に向上させる。
Market-1501 で CaffeNet を用いた場合、FC6 のランク1 は 55.3% から 80.5%、mAP は 30.4% から 55.9%、FC7 ではランク1 が 54.6% から 79.0%、mAP が 30.3% から 54.6% に改善。
ResNet-50 では、SVDNet は特に DukeMTMC-reID のランク1 が 76.7%、mAP が 56.8%、Market-1501 で 82.3/62.1 など、ベースラインを大きく上回る。
W を US に置換することで識別力を保持しつつデコリレーションを改善する一方、他のデコリレーション手法は性能を低下させる。
SVDNet は実務上、限定的な RRIs（例：ResNet-50 で 7 RRIs、CaffeNet で 25）で収束し、相関指標 S(W) を用いて直交性を監視する（S(W) は 1/k に向かって増加）。
Eigenlayer の出力次元は性能と冗長性のバランスを取り、最適を超えると次元が大きくなると性能が劣化するピークを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。