QUICK REVIEW

[論文レビュー] Light-Weight RetinaNet for Object Detection

Yixing Li, Fengbo Ren|arXiv (Cornell University)|May 24, 2019

Advanced Neural Network Applications参考文献 18被引用数 27

ひとこと要約

本稿では、最も計算コストの高い層に限定してFLOPsを削減する方法を用いて、軽量なRetinaNetを提案する。具体的には、上位の特徴マップピラミッドネットワーク（FPN）ブランチに焦点を当て、ネットワークの他の部分は変更しない。この手法により、入力画像スケーリングと比較して優れたmAP-FLOPsトレードオフを達成し、FLOPsを1.15倍に削減した場合に0.1%のmAP向上、1.8倍に削減した場合に0.3%のmAP向上を達成する。線形の劣化トレンドを示し、従来のスケーリング手法の指数的劣化トレードオフを上回る。

ABSTRACT

Object detection has gained great progress driven by the development of deep learning. Compared with a widely studied task -- classification, generally speaking, object detection even need one or two orders of magnitude more FLOPs (floating point operations) in processing the inference task. To enable a practical application, it is essential to explore effective runtime and accuracy trade-off scheme. Recently, a growing number of studies are intended for object detection on resource constraint devices, such as YOLOv1, YOLOv2, SSD, MobileNetv2-SSDLite, whose accuracy on COCO test-dev detection results are yield to mAP around 22-25% (mAP-20-tier). On the contrary, very few studies discuss the computation and accuracy trade-off scheme for mAP-30-tier detection networks. In this paper, we illustrate the insights of why RetinaNet gives effective computation and accuracy trade-off for object detection and how to build a light-weight RetinaNet. We propose to only reduce FLOPs in computational intensive layers and keep other layer the same. Compared with most common way -- input image scaling for FLOPs-accuracy trade-off, the proposed solution shows a constantly better FLOPs-mAP trade-off line. Quantitatively, the proposed method result in 0.1% mAP improvement at 1.15x FLOPs reduction and 0.3% mAP improvement at 1.8x FLOPs reduction.

研究の動機と目的

RetinaNetのような高精度オブジェクト検出ネットワークは、分類ネットワークと比較して顕著に多くのFLOPsを要するため、その高い計算コストに対処すること。
高精度のmAP-30ティア検出ネットワーク（通常はハイエンドハードウェアにデプロイされる）に対して、より効果的なFLOPs-精度トレードオフ戦略を模索すること。
入力スケーリングやバックボーンの変更によるグローバルな削減ではなく、RetinaNetの中で最も計算コストの高い層を特定し、それらにのみ最適化すること。
検出ヘッドの重い層を軽量アーキテクチャに選択的に置き換えることで、推論コストを削減しながら高い精度を維持すること。

提案手法

本手法は、RetinaNetの中で最も重い部分（上位のFPNブランチ、P3）に焦点を当て、FLOPsの48%を占める。この部分を軽量ブロックのバリエーションに置き換える。
軽量ブロックは、FLOPsを削減しながら特徴表現を保持することを目的に設計され、同等のFLOPs削減レベルで精度をよりよく保持できるD-block-v3が最適なバリエーションとして選ばれた。
元のバックボーン（ResNet-50）と特徴マップピラミッド構造を維持し、検出ヘッドの回帰および分類ブランチのみを変更する。
グローバルなアーキテクチャ変更による精度低下を避けるために、FLOPs消費が最も高いコンponentsにのみ選択的に適用する。
FLOPs削減率に比例して学習スケジュールを延長することで、モデルの収束を維持する。これはネットワーク圧縮研究からの原則に従う。
本手法は、FLOPsのブロックワイズな不均衡を持つ他のFPNベースの検出ネットワークにも一般化可能であり、RetinaNetに限らず適用可能である。

実験結果

リサーチクエスチョン

RQ1最も計算コストの高い層に限定してFLOPsを削減することで、従来の入力画像スケーリングと比較して、より優れたmAP-FLOPsトレードオフが達成できるか？
RQ2なぜRetinaNetは効果的なFLOPs-精度トレードオフを提供するのか？そして、この特性を活かしてより軽量なバージョンを構築できるか？
RQ3層別最適化によるFLOPs削減では、入力スケーリングと比較してmAPの劣化がより線形的になるか？
RQ4分類タスクから導入された軽量ブロック設計を、検出タスクにそのまま適用しても、顕著な精度損失が生じないか？
RQ5バックボーンと特徴マップピラミッドを維持しつつ、最も重い検出ヘッド層にのみ最適化を施すことで、グローバルな削減と比較して性能をよりよく維持できるか？

主な発見

提案手法は、ベースラインのRetinaNetと比較して、FLOPsを1.15倍に削減した状態で0.1%のmAP向上を達成した。
FLOPsを1.8倍に削減した状態では、ベースラインと比較して0.3%のmAP向上を達成し、優れたトレードオフ性能を示した。
提案手法のmAP劣化曲線は線形トレンドに従うが、入力画像スケーリングでは指数的劣化を示し、FLOPsが低い状態で性能差が拡大する。
同じFLOPs削減レベルで、D-block-v3はMobileNetに基づくD-block-v1を上回る性能を示し、MobileNetブロックが検出ヘッドの置き換えに最適でないことが示された。
FLOPs-mAPトレードオフプロットにおける赤線（提案手法）は、青線（入力スケーリング）よりも常に左上に位置し、より優れたトレードオフ性能を確認した。
本手法は、FLOPs分布に不均衡を示す他のFPNベースの検出ネットワークに対しても一般化可能であり、効率的なデプロイのためのスケーラブルな戦略を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。