QUICK REVIEW

[論文レビュー] Batch DropBlock Network for Person Re-identification and Beyond

Zuozhuo Dai, Mingqiang Chen|arXiv (Cornell University)|Nov 17, 2018

Video Surveillance and Tracking Methods参考文献 79被引用数 23

ひとこと要約

本稿では、人物再識別および画像検索のためのバッチドロップブロック正則化を施した2本の分岐を持つ畳み込みニューラルネットワーク、Batch DropBlock Network (BDB) を提案する。訓練中に特徴マップ全体にわたって構造的ドロップアウトを適用することにより、BDB は遮蔽および視点変化に対して特徴のロバスト性を向上させ、複数のベンチマークで最先端の性能を達成し、再ランク付けを用いることで Market1501 で 95.8% の Rank-1 精度を達成した。

ABSTRACT

Since the person re-identification task often suffers from the problem of pose changes and occlusions, some attentive local features are often suppressed when training CNNs. In this paper, we propose the Batch DropBlock (BDB) Network which is a two branch network composed of a conventional ResNet-50 as the global branch and a feature dropping branch. The global branch encodes the global salient representations. Meanwhile, the feature dropping branch consists of an attentive feature learning module called Batch DropBlock, which randomly drops the same region of all input feature maps in a batch to reinforce the attentive feature learning of local regions. The network then concatenates features from both branches and provides a more comprehensive and spatially distributed feature representation. Albeit simple, our method achieves state-of-the-art on person re-identification and it is also applicable to general metric learning tasks. For instance, we achieve 76.4% Rank-1 accuracy on the CUHK03-Detect dataset and 83.0% Recall-1 score on the Stanford Online Products dataset, outperforming the existing works by a large margin (more than 6%).

研究の動機と目的

遮蔽および視点変化といった困難な条件下でも、人物再識別の特徴のロバスト性を向上させること。
空間的に分散された、注目メカニズムに配慮した特徴を学習するうえで、標準的なデータ拡張および正則化の限界を解消すること。
正確な画像アライメントを必要としない一般化を向上させる訓練戦略を開発すること。
BDB の有効性を、再識別およびゼロショット画像検索の両タスクにおいて評価すること。

提案手法

高い次元の特徴埋め込みを学習するための、表現能力を向上させた2本の分岐ネットワークアーキテクチャを提案する。
訓練中に特徴マップの空間的ブロック全体をランダムにマスクする、構造的ドロップアウト手法である Batch DropBlock を導入する。
ドロップされたブロックの高さと幅を制御するため、異なるドロップレート（r_h, r_w）を適用し、空間的不変性を促進する。
マッチングスコアをさらに精緻化するために、再ランク付けのポストプロセッシングを適用する。
クラスアクティベーションマップ（CAMs）を用いて、ベースラインモデルと BDB モデルの間で注目分布を可視化および比較する。
アライメントあり・なしの両設定において、Market1501、DukeMTMC-reID、CUHK03、CUB200、CARS196 といった複数のデータセットで性能を評価する。

実験結果

リサーチクエスチョン

RQ1構造的ドロップアウト（Batch DropBlock）は、遮蔽および視点変化の下でも、人物再識別における特徴のロバスト性を向上させることができるか？
RQ2標準的なドロップアウトおよびデータ拡張と比較して、Batch DropBlock は空間的に分散され、判別力のある特徴を学習する上でどのように優れているか？
RQ3入力画像が概ねアライメントされていない状況でも、BDB ネットワークは性能を維持することができるか？これは、実世界のデータへの一般化を示唆する。
RQ4再ランク付けは、複数のベンチマークで BDB ネットワークの性能をどの程度向上させるか？
RQ5BDB のクラスアクティベーションマップは、標準的な ResNet と比較して、関連のある物体部の強調をどのように異なる形で行っているか？

主な発見

Market1501 データセットにおいて、BDB に再ランク付けを適用した場合、Rank-1 精度が 95.8%、mAP が 93.7% に達し、ベースラインおよび先行手法を上回った。
CUB200 および CARS196 において、クロップ処理を施さない（つまり、概ねアライメントのない）状況下で、BDB に Batch DropBlock を適用しない（r_h=0, r_w=0）場合、それぞれ 67.8% および 87.8% の Recall@1 を達成し、DropBlock を適用したバージョンを上回った。
クラスアクティベーションマップの可視化から、BDB は体の部位や物体領域にわたり、より空間的に分散され、顕著な特徴を学習しているのに対し、ベースラインは限定的な判別領域に集中していることが明らかになった。
再ランク付けは、すべてのデータセットで Rank-1 および mAP スコアを一貫して向上させ、特に CUHK03-Label では 87.4% の Rank-1 および 88.7% の mAP という最高スコアを記録した。
可視化結果から、BDB はポーズ不変性を持つ特徴を学習しており、背面からのクエリに対しても正しくアイデンティティを検索できることを確認した。
画像検索タスク（CUB200、CARS196、In-Shop、Stanford）において、BDB は背景のノイズ要因が少ない、より明確で局所化された CAMs を生成したのに対し、ベースラインはそれらを多く含んでいた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。