QUICK REVIEW

[論文レビュー] Attention-guided Context Feature Pyramid Network for Object Detection

Junxu Cao, Qi Chen|arXiv (Cornell University)|May 23, 2020

Advanced Neural Network Applications参考文献 55被引用数 68

ひとこと要約

AC-FPNはContext Extraction Module (CEM) を導入して多尺度の文脈情報を収集し、Context AttentionとContent Attentionを備えたAttention-guided Module (AM) で顕著な依存関係を強調することで、FPNベースのモデルに組み込んだ場合に物体検出とインスタンス分割の性能を向上させます。

ABSTRACT

For object detection, how to address the contradictory requirement between feature map resolution and receptive field on high-resolution inputs still remains an open question. In this paper, to tackle this issue, we build a novel architecture, called Attention-guided Context Feature Pyramid Network (AC-FPN), that exploits discriminative information from various large receptive fields via integrating attention-guided multi-path features. The model contains two modules. The first one is Context Extraction Module (CEM) that explores large contextual information from multiple receptive fields. As redundant contextual relations may mislead localization and recognition, we also design the second module named Attention-guided Module (AM), which can adaptively capture the salient dependencies over objects by using the attention mechanism. AM consists of two sub-modules, i.e., Context Attention Module (CxAM) and Content Attention Module (CnAM), which focus on capturing discriminative semantics and locating precise positions, respectively. Most importantly, our AC-FPN can be readily plugged into existing FPN-based models. Extensive experiments on object detection and instance segmentation show that existing models with our proposed CEM and AM significantly surpass their counterparts without them, and our model successfully obtains state-of-the-art results. We have released the source code at https://github.com/Caojunxu/AC-FPN.

研究の動機と目的

FPNベース検出器における高解像度入力時の特徴マップ解像度と受容野のトレードオフを解決する。
さまざまな受容野からの多尺度文脈情報を重い計算なしに活用する。
注意機構を導入して冗長な文脈をフィルタリングし、オブジェクトを正確に検出する。
既存のFPNアーキテクチャに統合可能なプラグインモジュールを提供し、検出と分割結果を改善する。

提案手法

Context Extraction Module (CEM) は、異なるレート（例：3, 6, 12）と変形可能畳み込みを用いたマルチパス拡張畳み込みで、複数の受容野からの大域的な文脈情報を捉える。
CEM内の Dense connections は異なる経路からの特徴を統合し、1x1 の融合層が粗い特徴と細かい特徴を結合する。
Attention-guided Module (AM) は Context Attention Module (CxAM) と Content Attention Module (CnAM) で、意味的依存関係をモデル化し空間的な精度を保持する。
CxAM は CEM の出力のサブ領域間で自己注意を計算し、特徴を再重み付けする注意マップを生成する。
CnAM はより浅く局所的なマップの特徴を用いて正確な物体位置決定を維持し、CxAM の出力と融合する。
AM の出力は入力特徴と統合され、検出のためのマルチスケール表現を洗練させる。

実験結果

リサーチクエスチョン

RQ1CEM は高解像度物体検出において過度のオーバーヘッドなしに大域的文脈情報の活用を改善できるか。
RQ2提案された AM は冗長な文脈を効果的にフィルタリングし、意味的・空間的注意を活用して局在化と認識を改善するか。
RQ3AC-FPN は COCO などの標準ベンチマークで既存の FPN ベース検出器と組み合わせた場合、性能はどうなるか。
RQ4CEM における変形可能畳み込みとDense connections が性能と局在化に与える影響はどのようか。
RQ5AC-FPN は ResNet-50/101 などのさまざまなバックボーンや検出器にドロップインで適用可能か。

主な発見

Methods	Backbone	AP	AP50	AP75	AP_S	AP_M	AP_L
FPN* [18]	ResNet-50	37.2	59.3	40.2	20.9	39.4	46.9
FPN DetNet-59	DetNet-59	40.3	62.1	43.8	23.6	42.6	50.0
FPN* [18]	ResNet-101	39.4	61.5	42.8	22.7	42.1	49.9
DRFCN [54]	ResNet-101	37.1	58.9	39.8	17.1	40.3	51.3
Mask R-CNN*	ResNet-101	40.2	62.0	43.9	22.8	43.0	51.1
Cascade R-CNN*	ResNet-101	42.9	61.5	46.6	23.7	45.3	55.2
C-Mask R-CNN [34]	ResNet-101	42.0	62.9	46.4	23.4	44.7	53.8
AC-FPN*	ResNet-50	40.4	63.0	44.0	23.5	43.0	50.9
AC-FPN*	ResNet-101	42.4	65.1	46.2	25.0	45.2	53.2
AC-Cascade*	ResNet-101	45.0	64.4	49.0	26.9	47.7	56.6

AC-FPN は COCO test-dev 上でバックボーンと検出器を横断して、ベースラインの FPN ベース検出器より一貫して性能を向上させる。
CEM と AM を既存モデルに組み込むと、AP、AP50、AP75、そしてS/M/Lの各オブジェクトサイズで顕著な利益をもたらす。
CEM はよりリッチなマルチスケール文脈を捉え、密結合により情報フュージョンを強化し、変形可能畳み込みは大きな物体の利益を高め、小さな物体にはおとなしく影響する。
CxAM+CnAM の組み合わせは最も良い改善を提供し、意味的関係と正確な局在化を統合した注意マップが優れていることを確認した。
State-of-the-art ベースラインと比較して、ResNet-101 を用いた AC-FPN は高い AP（46.2）と高い AP75（49.0）を達成し、AC-Cascade は COCO test-dev で 45.0 AP と 49.0 AP75 を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。