QUICK REVIEW

[論文レビュー] AugFPN: Improving Multi-scale Feature Learning for Object Detection

Chaoxu Guo, Bin Fan|arXiv (Cornell University)|Dec 11, 2019

Advanced Neural Network Applications参考文献 52被引用数 42

ひとこと要約

AugFPN は Consistent Supervision、Residual Feature Augmentation、Soft RoI Selection を導入し、FPN の欠陥を解消し、COCO 上でバックボーンと検出器間で一貫した AP 増加を実現します。

ABSTRACT

Current state-of-the-art detectors typically exploit feature pyramid to detect objects at different scales. Among them, FPN is one of the representative works that build a feature pyramid by multi-scale features summation. However, the design defects behind prevent the multi-scale features from being fully exploited. In this paper, we begin by first analyzing the design defects of feature pyramid in FPN, and then introduce a new feature pyramid architecture named AugFPN to address these problems. Specifically, AugFPN consists of three components: Consistent Supervision, Residual Feature Augmentation, and Soft RoI Selection. AugFPN narrows the semantic gaps between features of different scales before feature fusion through Consistent Supervision. In feature fusion, ratio-invariant context information is extracted by Residual Feature Augmentation to reduce the information loss of feature map at the highest pyramid level. Finally, Soft RoI Selection is employed to learn a better RoI feature adaptively after feature fusion. By replacing FPN with AugFPN in Faster R-CNN, our models achieve 2.3 and 1.6 points higher Average Precision (AP) when using ResNet50 and MobileNet-v2 as backbone respectively. Furthermore, AugFPN improves RetinaNet by 1.6 points AP and FCOS by 0.9 points AP when using ResNet50 as backbone. Codes will be made available.

研究の動機と目的

多段階特徴の活用を妨げる FPN フィーチャーピラミッドの設計欠陥を特定する。
意味的ギャップ、情報損失、RoI 割り当ての非効果性に対処する3つの要素を備えた AugFPN を提案する。
MS COCO 上で複数の検出器とバックボーンにわたって AugFPN を評価し、堅牢性と一般性を評価する。
FPN ベースラインに対して顕著な AP の改善を示し、ワンステージおよびツーステージ検出器との互換性を示す。

提案手法

統合前にマルチスケール特徴マップ間で類似した意味情報を強制する Consistent Supervision。
比率不変の文脈特徴を最高レベルのピラミッドマップ（M5）に残差ブランチと Adaptive Spatial Fusion を介して組み込む Residual Feature Augmentation。
ヒューリスティックなレベル割り当てを回避し、Adaptive Spatial Fusion を用いて全ピラミッドレベルから適応的な RoI フィーチャー融合を学習する Soft RoI Selection。

実験結果

リサーチクエスチョン

RQ1Consistent Supervision が融合前のピラミッドレベル間の意味的ギャップを縮小できるか。
RQ2最高レベルの特徴を ratio に対して不変な文脈で豊富にすることで情報損失を減らし、多尺度融合を改善できるか。
RQ3適応的で学習可能な RoI フィーチャー融合を全てのピラミッドレベルで行い、ヒューリスティックな RoI レベル割り当てと最大/和融合を上回れるか。
RQ4提案された構成要素は COCO でバックボーンと検出器を跨いで一般化できるか。

主な発見

FPN を AugFPN に置換すると、ResNet50 を用いた Faster R-CNN の AP が 2.3 増加して 38.8 AP になる。
AugFPN は ResNet101 を用いた Faster R-CNN も 1.7 AP 増加させて 40.6 AP、ResNext-101 系列では最大 1.4 AP の改善。
MobileNet-V2 ベースラインで Faster R-CNN は 1.6 AP 増加。
ワンステージ検出器も利益を享受: RetinaNet は 1.6 AP 増（ResNet50 の場合、MobileNet-v2 の場合は 1.3 AP）、FCOS は ResNet-50 で 0.9 AP 増。
AugFPN 使用時、Mask R-CNN は検出で 2.0 AP（ResNet50）、1.5 AP（ResNet101）の利得を得て、対応するセグメンテーション利得も生じる。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。