[論文レビュー] AugFPN: Improving Multi-scale Feature Learning for Object Detection
AugFPN は Consistent Supervision、Residual Feature Augmentation、Soft RoI Selection を導入し、FPN の欠陥を解消し、COCO 上でバックボーンと検出器間で一貫した AP 増加を実現します。
Current state-of-the-art detectors typically exploit feature pyramid to detect objects at different scales. Among them, FPN is one of the representative works that build a feature pyramid by multi-scale features summation. However, the design defects behind prevent the multi-scale features from being fully exploited. In this paper, we begin by first analyzing the design defects of feature pyramid in FPN, and then introduce a new feature pyramid architecture named AugFPN to address these problems. Specifically, AugFPN consists of three components: Consistent Supervision, Residual Feature Augmentation, and Soft RoI Selection. AugFPN narrows the semantic gaps between features of different scales before feature fusion through Consistent Supervision. In feature fusion, ratio-invariant context information is extracted by Residual Feature Augmentation to reduce the information loss of feature map at the highest pyramid level. Finally, Soft RoI Selection is employed to learn a better RoI feature adaptively after feature fusion. By replacing FPN with AugFPN in Faster R-CNN, our models achieve 2.3 and 1.6 points higher Average Precision (AP) when using ResNet50 and MobileNet-v2 as backbone respectively. Furthermore, AugFPN improves RetinaNet by 1.6 points AP and FCOS by 0.9 points AP when using ResNet50 as backbone. Codes will be made available.
研究の動機と目的
- 多段階特徴の活用を妨げる FPN フィーチャーピラミッドの設計欠陥を特定する。
- 意味的ギャップ、情報損失、RoI 割り当ての非効果性に対処する3つの要素を備えた AugFPN を提案する。
- MS COCO 上で複数の検出器とバックボーンにわたって AugFPN を評価し、堅牢性と一般性を評価する。
- FPN ベースラインに対して顕著な AP の改善を示し、ワンステージおよびツーステージ検出器との互換性を示す。
提案手法
- 統合前にマルチスケール特徴マップ間で類似した意味情報を強制する Consistent Supervision。
- 比率不変の文脈特徴を最高レベルのピラミッドマップ(M5)に残差ブランチと Adaptive Spatial Fusion を介して組み込む Residual Feature Augmentation。
- ヒューリスティックなレベル割り当てを回避し、Adaptive Spatial Fusion を用いて全ピラミッドレベルから適応的な RoI フィーチャー融合を学習する Soft RoI Selection。
実験結果
リサーチクエスチョン
- RQ1Consistent Supervision が融合前のピラミッドレベル間の意味的ギャップを縮小できるか。
- RQ2最高レベルの特徴を ratio に対して不変な文脈で豊富にすることで情報損失を減らし、多尺度融合を改善できるか。
- RQ3適応的で学習可能な RoI フィーチャー融合を全てのピラミッドレベルで行い、ヒューリスティックな RoI レベル割り当てと最大/和融合を上回れるか。
- RQ4提案された構成要素は COCO でバックボーンと検出器を跨いで一般化できるか。
主な発見
- FPN を AugFPN に置換すると、ResNet50 を用いた Faster R-CNN の AP が 2.3 増加して 38.8 AP になる。
- AugFPN は ResNet101 を用いた Faster R-CNN も 1.7 AP 増加させて 40.6 AP、ResNext-101 系列では最大 1.4 AP の改善。
- MobileNet-V2 ベースラインで Faster R-CNN は 1.6 AP 増加。
- ワンステージ検出器も利益を享受: RetinaNet は 1.6 AP 増(ResNet50 の場合、MobileNet-v2 の場合は 1.3 AP)、FCOS は ResNet-50 で 0.9 AP 増。
- AugFPN 使用時、Mask R-CNN は検出で 2.0 AP(ResNet50)、1.5 AP(ResNet101)の利得を得て、対応するセグメンテーション利得も生じる。)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。