QUICK REVIEW

[論文レビュー] Learning Spatial Fusion for Single-Shot Object Detection

Songtao Liu, Di Huang|arXiv (Cornell University)|Nov 21, 2019

Advanced Neural Network Applications参考文献 44被引用数 464

ひとこと要約

本論文は、ASFF（ adaptively spatial feature fusion）を提案し、特徴ピラミッドレベル全体で位置ごとの融合重みを学習して、単発検出器におけるスケール間の不一致を低減し、COCOでの速度-精度のトレードオフを改善します。

ABSTRACT

Pyramidal feature representation is the common practice to address the challenge of scale variation in object detection. However, the inconsistency across different feature scales is a primary limitation for the single-shot detectors based on feature pyramid. In this work, we propose a novel and data driven strategy for pyramidal feature fusion, referred to as adaptively spatial feature fusion (ASFF). It learns the way to spatially filter conflictive information to suppress the inconsistency, thus improving the scale-invariance of features, and introduces nearly free inference overhead. With the ASFF strategy and a solid baseline of YOLOv3, we achieve the best speed-accuracy trade-off on the MS COCO dataset, reporting 38.1% AP at 60 FPS, 42.4% AP at 45 FPS and 43.9% AP at 29 FPS. The code is available at https://github.com/ruinmessi/ASFF

研究の動機と目的

ピラミッド型特徴表現を用いた物体検出におけるスケール変動に対処する。
単発検出器における融合時の特徴ピラミッドレベル間の不一致を軽減する。
効率性を維持しつつ精度を向上させるデータ駆動型融合メカニズムを提供する。

提案手法

ASFFを導入し、特徴ピラミッドレベル全体の各位置で空間的融合重みを学習する。
適応的融合の前に、すべてのレベルの特徴を共通の解像度にリサイズする。
学習済みパラメータ lambda によるソフトマックスで融合重みを計算し、alpha, beta, gamma を生成する（alpha+beta+gamma=1）。
レベルごとに特徴を以下のように融合する: y^l_ij = alpha^l_ij x^{1->l}_ij + beta^l_ij x^{2->l}_ij + gamma^l_ij x^{3->l}_ij.
標準検出損失と既存のYOLOv3（および IoU）損失を組み合わせたエンドツーエンドで訓練し、推論オーバーヘッドをほぼ一定に保つ。
YOLOv3 および RetinaNet のバックボーンとの互換性を実証し、速度-精度の向上を示す。

実験結果

リサーチクエスチョン

RQ1特徴ピラミッドレベル全体での適応的、位置ごとの融合は、単発検出器におけるスケールの不一致を軽減できるか？
RQ2ASFFは、標準の融合（sum/concat）および ignore-region 戦略と比較して、精度と速度の点でどうか。
RQ3小・中サイズの物体検出を改善しつつ、大きい物体の性能を犠牲にしないか？
RQ4ASFFはバックボーンと検出器設計に対して独立性があるか、実用的な推論オーバーヘッドはどれくらいか？

主な発見

ASFFは、COCO val-2017 で YOLOv3 ベースの検出器の AP を 38.8% から 40.6% に改善させる（最小限のオーバーヘッド）。
ASFF は推論時間を約 2 ms 追加し、約 46 FPS を維持する。
ASFF は小・中サイズの物体でより大きな利得を生み、AP_S および AP_M がそれぞれ約 2.9 ポイント増加。
RetinaNet を ASFF で用いると、ベースラインに対して一貫して AP を改善（例: R50-FPN: 35.9 から 37.4、R101-FPN: 39.1 から 40.1 on val-2017）。
COCO test-dev では、YOLOv3+ASFF* が 63 FPS で 42.4 AP を達成（ASFF* バリアントでは 29 FPS で 43.9 AP）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。