QUICK REVIEW

[論文レビュー] Residual Features and Unified Prediction Network for Single Stage Detection

Kyoungmin Lee, Jaeseok Choi|arXiv (Cornell University)|Jul 17, 2017

Advanced Neural Network Applications参考文献 20被引用数 23

ひとこと要約

本論文では、ResNetとデコンボリューション特徴を組み合わせた3路リプルスブロックを用いて浅い層の特徴表現を向上させるとともに、特徴マップ間で予測ヘッドを統合するRUN（リプルス特徴と統合予測ネットワーク）を提案する。この手法は、PASCAL VOCおよびMS COCOで最先端の精度を達成し、同等のモデルと比較して高速な推論を実現。VGG-16を用いた場合、COO上ではSSDを2.9% mAP上回り、リアルタイム速度を維持する。

ABSTRACT

Recently, a lot of single stage detectors using multi-scale features have been actively proposed. They are much faster than two stage detectors that use region proposal networks (RPN) without much degradation in the detection performances. However, the feature maps in the lower layers close to the input which are responsible for detecting small objects in a single stage detector have a problem of insufficient representation power because they are too shallow. There is also a structural contradiction that the feature maps have to deliver low-level information to next layers as well as contain high-level abstraction for prediction. In this paper, we propose a method to enrich the representation power of feature maps using Resblock and deconvolution layers. In addition, a unified prediction module is applied to generalize output results and boost earlier layers' representation power for prediction. The proposed method enables more precise prediction, which achieved higher score than SSD on PASCAL VOC and MS COCO. In addition, it maintains the advantage of fast computation of a single stage detector, which requires much less computation than other detectors with similar performance. Code is available at https://github.com/kmlee-snu/run

研究の動機と目的

1段階検出器における浅い特徴マップの表現力の制限、特に小さなオブジェクトに対する課題を解決する。
初期の特徴マップが低レベルの詳細と高レベルの抽象化の両方を担うという構造的矛盾を解消する。
推論速度を犠牲にせずに文脈的理解を向上させ、重複検出（例：「ボックスインボックス」問題）を低減する。
複数の特徴レベルにわたる予測を一般化することで、初期層の特徴表現と検出性能を向上させる。
軽量なVGG-16バックボーンを用いて最小限の計算コストで高精度を達成し、速度-精度トレードオフにおいてより深いモデルを上回る。

提案手法

残差接続（ResNet風）とデコンボリューションアップサンプリングを組み合わせた3路リプルスブロックを導入し、文脈的情報を豊かにした特徴マップを強化する。
デコンボリューション分岐を用いて高レベルの意味的特徴を下位層に再帰的に伝達し、小さなオブジェクト検出のための特徴表現を向上させる。
個別の特徴層からの複数の予測ヘッドを1つの共有予測モジュールに統合し、特徴の抽象化と一般化を向上させる。
統合予測モジュールを用いてマルチスケール特徴間でエンドツーエンド学習を可能にするとともに、計算効率を維持する。
VGG-16上でエンドツーエンド学習を実施し、残差およびデコンボリューション素子を活用して勾配の安定化と特徴品質の向上を図る。
ResNet-101のような重いバックボーンを避けることで推論速度を最適化し、コンsumer GPU上でもリアルタイム性能を維持する。

実験結果

リサーチクエスチョン

RQ1残差モジュールとデコンボリューションモジュールを組み合わせることで、計算コストを増加させずに1段階検出器の浅い層における特徴表現を向上させられるか？
RQ2特徴レベルに跨る予測ヘッドの統合は、特徴の抽象化と検出精度を向上させるか？
RQ3軽量なVGG-16ベースのモデルは、深さの増したモデル（例：ResNet-101）を上回る精度を達成しつつ、リアルタイム推論を維持できるか？
RQ4提案手法は、SSDに類似した検出器に共通する「ボックスインボックス」問題に対してどれほど効果的か？
RQ5残差ブロックと統合予測の組み合わせにより、PASCAL VOCおよびMS COCOで最先端のmAPを達成し、速度低下を最小限に抑えることができるか？

主な発見

RUN3WAY300はMS COCO test-devで28.0% mAPを達成し、SSD300を2.9%上回った。推論速度は36%遅いが、類似精度のResNet-101ベースモデルを上回る。
RUN3WAY512はMS COCOで32.4% mAPを達成し、SSD512を3.6%上回った。また、小サイズオブジェクトの平均精度と再現率において、RetinaNetを除き他の手法より優れた結果を示した。
RUN3WAY512はTitan X Pascalで29.8 FPSを達成し、精度が向上したにもかかわらずリアルタイム推論を実現した。
SSD300を2.9% mAP、SSD512を3.6% mAP上回ったが、使用したバックボーンはより軽量なVGG-16であった。
統合予測モジュールは特徴の抽象化を顕著に向上させ、重複検出を低減し、スケール間の一般化を強化した。
RUNは特徴表現の向上を実現しながらも高い速度を維持した。これにより、1段階検出における精度と推論時間のバランスを効果的に実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。