QUICK REVIEW

[論文レビュー] See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification

Tao Hu, Honggang Qi|arXiv (Cornell University)|Jan 25, 2019

Domain Adaptation and Few-Shot Learning被引用数 157

ひとこと要約

この論文は WS-DAN を提唱し、弱教師付き注意マップを用いてデータ拡張（注意キャプチャとドロップ）、および物体を局所化/精練に活用し、FGVCの最先端成果を達成します。

ABSTRACT

Data augmentation is usually adopted to increase the amount of training data, prevent overfitting and improve the performance of deep models. However, in practice, random data augmentation, such as random image cropping, is low-efficiency and might introduce many uncontrolled background noises. In this paper, we propose Weakly Supervised Data Augmentation Network (WS-DAN) to explore the potential of data augmentation. Specifically, for each training image, we first generate attention maps to represent the object's discriminative parts by weakly supervised learning. Next, we augment the image guided by these attention maps, including attention cropping and attention dropping. The proposed WS-DAN improves the classification accuracy in two folds. In the first stage, images can be seen better since more discriminative parts' features will be extracted. In the second stage, attention regions provide accurate location of object, which ensures our model to look at the object closer and further improve the performance. Comprehensive experiments in common fine-grained visual classification datasets show that our WS-DAN surpasses the state-of-the-art methods, which demonstrates its effectiveness.

研究の動機と目的

詳細な注釈なしで空間的なオブジェクト情報を活用してデータ拡張の効率を向上させる動機づけ。
画像レベルのラベルから注意マップを学習するフレームワークを開発し、それを拡張と局所化に使用する。
注意誘導データ拡張をバイリニアアテンションプーリング機構と組み合わせて識別的なパート特徴を抽出する。
注意キャプチャとドロップがFGVCベンチマークにおける特徴表現と局所化の精度の向上に寄与することを示す。

提案手法

弱教師付き学習を用いてCNN特徴マップから注意マップを生成する。
注意マップからパートベースの特徴を抽出するためにバイリニアアテンションプーリングを適用する（P = Γ(A, F)）。
学習済みセンターとパート特徴を整列させるためのアテンション正則化を課す（L_A）。
注意誘導データ拡張を実行する：注意キャプチャ（識別に有用な部分を拡大）および注意ドロップ（探索を促すために部分を消去）。
推論時に注意マップを集約してオブジェクトマップを形成し、それを拡大して粗限-細分予測を実現することで物体領域を特定・精練する。

実験結果

リサーチクエスチョン

RQ1境界ボックスの注釈なしで、弱教師付き注意学習は信頼性の高い識別部を生成できるか？
RQ2注意誘導データ拡張技術（キャプチャとドロップ）はFGVCにおいてランダム拡張を上回るか？
RQ3注意マップからの明示的な物体局在と精練は最終的なFGVCの精度を向上させるか？
RQ4注意マップの数を増やすとFGVCの性能にどう影響するか？

主な発見

WS-DANは4つのFGVCデータセットで最先端の精度を達成: CUB-200-2011 (89.4%), FGVC-Aircraft (94.5%), Stanford Cars (92.2%), Stanford Dogs (93.0%)。
注意誘導データ拡張は分類精度と局所化品質（mIoU）の双方でランダム拡張を上回る。
複数の注意マップ（最大32以上）を使用すると精度が高くなり、CUB-200-2011では約89.4%で安定する。
物体局在誤差率はCUB-200-2011およびStanford Dogsで従来法より著しく低く、18.3%、19.2%である。
注意キャプチャとドロップは精度の向上に累積的に寄与する（例：すべての要素を組み合わせた場合、CUB-200-2011で83.7%から89.4%へ）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。