QUICK REVIEW

[論文レビュー] Comprehensive Attention Self-Distillation for Weakly-Supervised Object Detection

Zeyi Huang, Yang Zou|arXiv (Cornell University)|Oct 22, 2020

Advanced Neural Network Applications参考文献 46被引用数 66

ひとこと要約

CASDは複数の画像変換と特徴層からの包括的注意を集約し、WSODモデル内でこの注意を自己蒸留することで弱教師付き物体検出を改善し、平衡で空間的に一貫した検出を達成し、VOCとCOCOで最先端の結果を達成します。

ABSTRACT

Weakly Supervised Object Detection (WSOD) has emerged as an effective tool to train object detectors using only the image-level category labels. However, without object-level labels, WSOD detectors are prone to detect bounding boxes on salient objects, clustered objects and discriminative object parts. Moreover, the image-level category labels do not enforce consistent object detection across different transformations of the same images. To address the above issues, we propose a Comprehensive Attention Self-Distillation (CASD) training approach for WSOD. To balance feature learning among all object instances, CASD computes the comprehensive attention aggregated from multiple transformations and feature layers of the same images. To enforce consistent spatial supervision on objects, CASD conducts self-distillation on the WSOD networks, such that the comprehensive attention is approximated simultaneously by multiple transformations and feature layers of the same images. CASD produces new state-of-the-art WSOD results on standard benchmarks such as PASCAL VOC 2007/2012 and MS-COCO.

研究の動機と目的

顕著な物体、クラスター化されたインスタンス、判別可能な部位に偏りが生じる問題に対処することで、WSODを動機づける。
包括的な注意を通じてオブジェクトインスタンス間の特徴学習のバランスを取る仕組みを開発する。
WSODネットワーク内で包括的な注意を自己蒸留することにより、空間的・インスタンスレベルの一貫性を強制する。
画像変換と多層特徴を自由な教師信号として活用する。
標準的なWSODベンチマークで最先端の性能を示す。

提案手法

ベースデテクターとMILヘッドとしてOICR WSODフレームワークを前提とする。
提案特徴マップから提案注意マップを計算し、それらを変換とレイヤーを横断して包括的注意に集約する。
入力ごとのCASD（IW-CASD）を導入し、元の入力、反転した入力、およびスケール変更した入力に跨って包括的注意を合わせる; A_r^{IW}を形成するために最大融合を用い、変換されたビュー全体で個々の注意をA_r^{IW}と揃えるようL_IWを最小化する。
複数のCNN層からの注意マップをA_r^{LW}に集約し、L_LWを最小化して層間での注意をA_r^{LW}と揃えるようLayer-wise CASD（LW-CASD）を導入する。
外部の教師なしで、包括的注意マップをソフト教師信号として再利用し、WSOD特徴抽出器を正則化することで自己蒸留を行う。
MIL損失、リファインメント損失、回帰損失、およびCASD損失を統合したエンドツーエンドの訓練目的へ統合する。

実験結果

リサーチクエスチョン

RQ1複数の変換と特徴層を横断して集約された包括的注意は、標準の注意マップを超えるWSODの局在化を改善できるか？
RQ2WSODモデル内での包括的注意の自己蒸留は、オブジェクトインスタンスと変換全体の一貫性とバランスを改善するか？
RQ3入力ごとのCASDと層ごとのCASDの寄与、およびそれらの組み合わせがWSOD性能にどのように影響するか？
RQ4WSODにおける他の注意正規化戦略とCASDはどのように比較されるか？

主な発見

CASDはVOC 2007で顕著なmAP改善をもたらす（ベースライン48.9%からフルCASDで56.8%）、VOC 2012でも、バックボーンのバリアントでMS-COCOも顕著な向上を示す。
入力-wise CASD（IW）は画像変換全体で注意を集約することにより大きな利得を提供し、例えばIWはVOC 2007でベースラインより約5.2ポイント向上する。
Layer-wise CASD（LW）はCNN層全体で注意を集約することにより追加の利得を提供し、LW+CASDはベースラインを顕著に上回る改善を達成する。
IWとLWを回帰とより強化された拡張と組み合わせると、最良のVOC 2007スコア（56.8% mAP 0.5）を達成し、MS-COCOとVOC 2012でも堅牢な結果を示す。
CASDは予測整合性および注意整合性のベースラインを上回り、WSODのアブレーションで優れた注意正規化を示す。
アブレーション研究は中間レベルの層（B2-B4）がWSODのためのバランスのとれた注意に最も寄与することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。