QUICK REVIEW

[論文レビュー] Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition

Xiu-Shen Wei, Chen-Wei Xie|ArXiv.org|May 23, 2016

Advanced Neural Network Applications参考文献 14被引用数 103

ひとこと要約

Mask-CNN は end-to-end の four-stream CNN を導入し、FCN 予測の物体/部位マスクを用いて深い記述子を選択・プーリングし、細粒度認識を実現。コンパクトなモデルで CUB-200-2011 における最先端の精度を達成。

ABSTRACT

Fine-grained image recognition is a challenging computer vision problem, due to the small inter-class variations caused by highly similar subordinate categories, and the large intra-class variations in poses, scales and rotations. In this paper, we propose a novel end-to-end Mask-CNN model without the fully connected layers for fine-grained recognition. Based on the part annotations of fine-grained images, the proposed model consists of a fully convolutional network to both locate the discriminative parts (e.g., head and torso), and more importantly generate object/part masks for selecting useful and meaningful convolutional descriptors. After that, a four-stream Mask-CNN model is built for aggregating the selected object- and part-level descriptors simultaneously. The proposed Mask-CNN model has the smallest number of parameters, lowest feature dimensionality and highest recognition accuracy when compared with state-of-the-arts fine-grained approaches.

研究の動機と目的

細粒度認識は微妙なクラス間差を識別する必要がある。
完全結合層を使わない end-to-end Mask-CNN を提案し、部位ベースのマスクで記述子を選択する。
四-stream アーキテクチャ（画像、頭部、胴体、物体）を活用して物体レベルと部位レベルの情報を共同でモデリング。
CUB-200-2011 で最新手法と比べ高い精度と効率を実証。

提案手法

部品注釈から物体/部位マスクを生成するために FCN を用い、部位局在を三クラス分割タスクとして扱う。
全結合層を破棄し、畳み込み層を保持して空間位置ごとに 512-d の深い記述子を得る。
頭部/胴体/物体マスクを 7x7 にリサイズし、二値セレクタとして適用して物体関連の記述子のみを保持する。
選択された記述子の平均化と最大プーリングにより各ストリームの特徴を計算し、続いて L2 正規化。
4 つの 1024-d 特徴を連結して 1 ストリームあたり 4096-d の表現を作り、エンドツーエンドで 200-way 分類器を訓練。
オプションで pool5 に加え relu5_2 の活性化を抽出し、結合して 8192-d 表現にし SVD whitening で 4096-d に落とす。

実験結果

リサーチクエスチョン

RQ1FCN マスクによる部位局在は、テスト時の監視なしで効果的な記述子選択を可能にするか？
RQ2四-stream アーキテクチャ（画像、頭部、胴体、物体）は CUB-200-2011 で単一ストリームや部分的に監視されたベースラインより優れているか？
RQ3記述子選択と標準的プーリングの影響は認識精度にどのように現れるか？
RQ4Mask-CNN はモデルサイズと特徴次元数の点で最先端手法と比してどうか？

主な発見

224x224 入力で 4-stream M-CNN（ストリームに FC はなし）で 83.1% 精度。
すべてのストリームで 448x448 入力で 85.2% に改善; pool5 と relu5_2 の特徴を組み合わせて 4-stream M-CNN + (448) で 85.4%。
SVD whitening を 4096-d にすると精度は 85.5% 。
Head localization: 84.62% PCP; Torso localization: 89.83% PCP (50% IOU 阈値使用)。
Object segmentation mean IU on test set: 72.41%。
Four-stream M-CNN は競合手法よりパラメータ少なく、特徴次元も低い（例: 60.49M パラメータ、4-stream M-CNN + の 8,192-d 特徴; AlexNet variant は 9.74M パラメータ、2,048-d 特徴）。
On CUB-200-2011, Mask-CNN は 85.5% 分類精度を達成し、テスト時の境界ボックスや部位を必要としない prior state-of-the-art 手法より高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。