[論文レビュー] Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition
Mask-CNN は end-to-end の four-stream CNN を導入し、FCN 予測の物体/部位マスクを用いて深い記述子を選択・プーリングし、細粒度認識を実現。コンパクトなモデルで CUB-200-2011 における最先端の精度を達成。
Fine-grained image recognition is a challenging computer vision problem, due to the small inter-class variations caused by highly similar subordinate categories, and the large intra-class variations in poses, scales and rotations. In this paper, we propose a novel end-to-end Mask-CNN model without the fully connected layers for fine-grained recognition. Based on the part annotations of fine-grained images, the proposed model consists of a fully convolutional network to both locate the discriminative parts (e.g., head and torso), and more importantly generate object/part masks for selecting useful and meaningful convolutional descriptors. After that, a four-stream Mask-CNN model is built for aggregating the selected object- and part-level descriptors simultaneously. The proposed Mask-CNN model has the smallest number of parameters, lowest feature dimensionality and highest recognition accuracy when compared with state-of-the-arts fine-grained approaches.
研究の動機と目的
- 細粒度認識は微妙なクラス間差を識別する必要がある。
- 完全結合層を使わない end-to-end Mask-CNN を提案し、部位ベースのマスクで記述子を選択する。
- 四-stream アーキテクチャ(画像、頭部、胴体、物体)を活用して物体レベルと部位レベルの情報を共同でモデリング。
- CUB-200-2011 で最新手法と比べ高い精度と効率を実証。
提案手法
- 部品注釈から物体/部位マスクを生成するために FCN を用い、部位局在を三クラス分割タスクとして扱う。
- 全結合層を破棄し、畳み込み層を保持して空間位置ごとに 512-d の深い記述子を得る。
- 頭部/胴体/物体マスクを 7x7 にリサイズし、二値セレクタとして適用して物体関連の記述子のみを保持する。
- 選択された記述子の平均化と最大プーリングにより各ストリームの特徴を計算し、続いて L2 正規化。
- 4 つの 1024-d 特徴を連結して 1 ストリームあたり 4096-d の表現を作り、エンドツーエンドで 200-way 分類器を訓練。
- オプションで pool5 に加え relu5_2 の活性化を抽出し、結合して 8192-d 表現にし SVD whitening で 4096-d に落とす。
実験結果
リサーチクエスチョン
- RQ1FCN マスクによる部位局在は、テスト時の監視なしで効果的な記述子選択を可能にするか?
- RQ2四-stream アーキテクチャ(画像、頭部、胴体、物体)は CUB-200-2011 で単一ストリームや部分的に監視されたベースラインより優れているか?
- RQ3記述子選択と標準的プーリングの影響は認識精度にどのように現れるか?
- RQ4Mask-CNN はモデルサイズと特徴次元数の点で最先端手法と比してどうか?
主な発見
- 224x224 入力で 4-stream M-CNN(ストリームに FC はなし)で 83.1% 精度。
- すべてのストリームで 448x448 入力で 85.2% に改善; pool5 と relu5_2 の特徴を組み合わせて 4-stream M-CNN + (448) で 85.4%。
- SVD whitening を 4096-d にすると精度は 85.5% 。
- Head localization: 84.62% PCP; Torso localization: 89.83% PCP (50% IOU 阈値使用)。
- Object segmentation mean IU on test set: 72.41%。
- Four-stream M-CNN は競合手法よりパラメータ少なく、特徴次元も低い(例: 60.49M パラメータ、4-stream M-CNN + の 8,192-d 特徴; AlexNet variant は 9.74M パラメータ、2,048-d 特徴)。
- On CUB-200-2011, Mask-CNN は 85.5% 分類精度を達成し、テスト時の境界ボックスや部位を必要としない prior state-of-the-art 手法より高い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。