[論文レビュー] Adversarial Complementary Learning for Weakly Supervised Object Localization
ACoLは、弱い監督下で integral object regions を同時に特定する2つの敵対的分類器を導入し、ILSVRC 2016 で最先端の WSOL 結果を達成します。
In this work, we propose Adversarial Complementary Learning (ACoL) to automatically localize integral objects of semantic interest with weak supervision. We first mathematically prove that class localization maps can be obtained by directly selecting the class-specific feature maps of the last convolutional layer, which paves a simple way to identify object regions. We then present a simple network architecture including two parallel-classifiers for object localization. Specifically, we leverage one classification branch to dynamically localize some discriminative object regions during the forward pass. Although it is usually responsive to sparse parts of the target objects, this classifier can drive the counterpart classifier to discover new and complementary object regions by erasing its discovered regions from the feature maps. With such an adversarial learning, the two parallel-classifiers are forced to leverage complementary object regions for classification and can finally generate integral object localization together. The merits of ACoL are mainly two-fold: 1) it can be trained in an end-to-end manner; 2) dynamically erasing enables the counterpart classifier to discover complementary object regions more effectively. We demonstrate the superiority of our ACoL approach in a variety of experiments. In particular, the Top-1 localization error rate on the ILSVRC dataset is 45.14%, which is the new state-of-the-art.
研究の動機と目的
- CAMベースのWSOLを画像レベルの監視下で有効にすることにより、全体的な物体局在を実現するという動機づけと限界の是正。
- 前方伝播時に最終層の特徴マップから局在マップを得るための理論的に裏付けされた手法を提案する。
- 補完的な物体領域を発見する2つの敵対的分類器を備えたエンドツーエンドのアーキテクチャを開発する。
- 動的な消去が第2の分類器を新しい領域へ導き、マップを融合して局在を改善することを示す。
提案手法
- 前方伝播時に最後の畳み込み特徴マップからクラス特異マップを得ることができるという理論的正当性を提供する。
- バックボーンの特徴マップを入力とする2つの並列分類器(AとB)を導入し、分類器Aが同定した領域を分類器Bが消去して補完的な領域を発見する。
- 分類器Aの局在マップに閾値処理を適用して、バックボーン特徴から識別的領域を消去する。
- 両分類器の正規化された局在マップを要素ごとの最大値で融合し、最終的な積分局在マップを形成する。
- 両分類器の交差エントロピー損失でエンドツーエンドにネットワークを訓練し、共同最適化を可能にする。)
実験結果
リサーチクエスチョン
- RQ1後処理のCAMステップを用いずに、弱監視下でどのように積分的な物体局在を達成できるか?
- RQ2動的な消去を伴う2つの敵対的分類器は、全体の領域を覆う補完的な物体領域を発見できるか?
- RQ3消去を用いたエンドツーエンド訓練は、単一分類器アプローチよりWSOLの局在精度を向上させるか?
主な発見
| Method | Top-1 err. | Top-5 err. |
|---|---|---|
| GoogLeNet-GAP [48] | 35.0 | 13.2 |
| GoogLeNet | 30.6 | 10.5 |
| GoogLeNet-ACoL(Ours) | 29.0 | 11.8 |
| VGGnet-GAP [48] | 33.4 | 12.2 |
| VGGnet | 31.2 | 11.4 |
| VGGnet-ACoL(Ours) | 32.5 | 12.0 |
- ACoLはILSVRC 2016で最先端のTop-1局在誤差45.14%を達成(いくつかの設定でアンサンブルによりTop-5局在誤差30.03%に達する)。
- ACoLが生成する局在マップはCAMベースのアプローチよりも大きい物体領域をカバーし、より正確な境界ボックスにつながる。
- 2つの分類器は補完的な物体領域(例:頭部と脚)を発見し、それらの融合が積分的な物体局在をもたらす。
- 分類器Aに導かれて識別的領域を消去することで分類器Bが新しい領域を見つけ、マップの融合が局在のロバスト性を高める。
- データセット全体(ILSVRC、CUB-200-2011、Caltech-256)で、ACoLは局在結果を改善し、境界ボックスのアノテーションに頼らずに競争力のある分類性能を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。