QUICK REVIEW

[論文レビュー] Feature Pyramid Networks for Object Detection

Tsung-Yi Lin, Piotr Dollár|arXiv (Cornell University)|Dec 9, 2016

Advanced Neural Network Applications参考文献 34被引用数 454

ひとこと要約

この論文は、単一のConvNet内に高速で意味的に強力な多スケール特徴ピラミッドを構築するFeature Pyramid Networks (FPNs) を紹介し、シングルスケールのテスト効率を保ちながら検出とセマンティック分割を改善します。Faster R-CNNとその変種を用いたCOCOで、単一入力画像スケールだけで最先端のシングルモデル結果を達成します。

ABSTRACT

Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep learning object detectors have avoided pyramid representations, in part because they are compute and memory intensive. In this paper, we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost. A top-down architecture with lateral connections is developed for building high-level semantic feature maps at all scales. This architecture, called a Feature Pyramid Network (FPN), shows significant improvement as a generic feature extractor in several applications. Using FPN in a basic Faster R-CNN system, our method achieves state-of-the-art single-model results on the COCO detection benchmark without bells and whistles, surpassing all existing single-model entries including those from the COCO 2016 challenge winners. In addition, our method can run at 5 FPS on a GPU and thus is a practical and accurate solution to multi-scale object detection. Code will be made publicly available.

研究の動機と目的

広範な物体スケールに跨る堅牢な物体検出を動機づける。
ConvNets の本来のピラミッド状特徴階層を活用して、全スケールで高レベルの意味的特徴を作成する。
高価な画像ピラミッドを回避し、エンドツーエンドで訓練可能な高速な特徴ピラミッドを開発する。

提案手法

バックボーン特徴マップからマルチスケール特徴ピラミッド (P2–P5) を作成するために、下向き(ボトムアップ)、上向き(トップダウン)、横方向の結合を導入する。
高次元の意味マップをアップサンプルし、1x1の横方向結合と3x3の精緻化を介して対応する下位レベルのマップと融合する。
各ピラミッドレベルに同一の検出ヘッドを取り付け、RPNとFast R-CNN のためにピラミッド全体で共有し、マルチスケールの提案と検出を可能にする。
空間的広がりに基づくログスケールマッピングを用いてRoIをピラミッドレベルに割り当て、グリッドベースのマルチスケール検出器に類似する。
フィーチャライズされた画像ピラッドのメモリ負荷を避け、単一画像スケールでエンドツーエンド訓練する。
各ピラミッドレベルに小さなMLPヘッドを持つことで、ピラッドをセグメンテーション提案へ拡張する。

実験結果

リサーチクエスチョン

RQ1ConvNet 内部で構築されたトップダウンの横方向結合を持つピラミッドは、画像ピラミッドのコストをかけずに複数のスケールで豊富な意味特徴を提供できるか？
RQ2すべてのピラミッドレベルでのマルチスケール予測は、小さな物体にとって特に、シングルスケールのベースラインと比較して領域提案と物体検出を改善するか？
RQ3検出ヘッドをピラミッドレベル間で共有することは有効か、また特徴共有は訓練と推論時間にどう影響するか？

主な発見

Proposals	feature	head	lateral?	top-down?	AP@0.5	AP	AP s	AP m	AP l
(*) baseline from He et al.	RPN, C4	C4	conv5			47.3	26.3	-	-	-
(a) baseline on conv4	RPN, {P_k}	C4	conv5			53.1	31.6	13.2	35.6	47.1
(b) baseline on conv5	RPN, {P_k}	C5	2 fc			51.7	28.0	9.6	31.9	43.1
(c) FPN	RPN, {P_k}	{P_k}	✓	✓	56.9	33.9	17.8	37.7	45.8
(d) bottom-up pyramid	RPN, {P_k}	{P_k}	✓			44.9	24.9	10.9	24.4	38.5
(e) top-down pyramid, w/o lateral	RPN, {P_k}	{P_k}		✓	54.0	31.3	13.3	35.2	45.3
(f) only finest level	RPN, {P_k}	P2	2 fc	✓	✓	56.3	33.4	17.3	37.3	45.6

FPNは、単一スケールのベースラインよりも領域提案のリコールと検出指標を大幅に改善する（例：AR 1k が8.0ポイント向上、COCOスタイルAPが2.3ポイント、PASCALスタイルAPが3.8ポイント、強力な単一スケールのFaster R-CNNベースラインに対して）。
トップダウンの濃化と横方向結合を使用すると、より高品質なマルチスケール特徴が得られ、これらの結合のないバリアントよりも上回る。
RPNとFast/Faster R-CNNと統合した場合、FPNはCOCOのminival/test-devで競合する、または優れたAPを達成し、当時の最先端の単一モデル結果を画像ピラミッドなしで上回る。
本手法はGPUで検出タスクを軽量でエンドツーエンド訓練可能なピラミッドとして約6 FPSの速度で動作する。
FPNベースのシステムは小さな物体に対して顕著な利得を示す（小物体のAPが顕著に改善）、一方で全体の速度は単一スケールのベースラインと比較して維持または向上する。
このフレームワークはセグメンテーション提案にも一般化し、画像ピラミッドベースの方法より提案品質と速度の双方を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。