QUICK REVIEW

[論文レビュー] Scale-aware Fast R-CNN for Pedestrian Detection

Jianan Li, Xiaodan Liang|arXiv (Cornell University)|Oct 28, 2015

Video Surveillance and Tracking Methods参考文献 58被引用数 114

ひとこと要約

本論文では、サイズに依存するゲート関数を用いたスケールに敏感な融合により、大小の歩行者に対して別々のサブネットワークを採用することで、歩行者検出におけるカテゴリ内スケールの大きなばらつきに対処する新規なオブジェクト検出フレームワーク、Scale-Aware Fast R-CNN (SAF R-CNN) を提案する。この手法は、Caltech、INRIA、ETH データセットにおいて9.32%のミス率を達成し、ベースラインモデルを著しく上回る性能を発揮しながらも、推論コストは低く抑えられる。

ABSTRACT

In this work, we consider the problem of pedestrian detection in natural scenes. Intuitively, instances of pedestrians with different spatial scales may exhibit dramatically different features. Thus, large variance in instance scales, which results in undesirable large intra-category variance in features, may severely hurt the performance of modern object instance detection methods. We argue that this issue can be substantially alleviated by the divide-and-conquer philosophy. Taking pedestrian detection as an example, we illustrate how we can leverage this philosophy to develop a Scale-Aware Fast R-CNN (SAF R-CNN) framework. The model introduces multiple built-in sub-networks which detect pedestrians with scales from disjoint ranges. Outputs from all the sub-networks are then adaptively combined to generate the final detection results that are shown to be robust to large variance in instance scales, via a gate function defined over the sizes of object proposals. Extensive evaluations on several challenging pedestrian detection datasets well demonstrate the effectiveness of the proposed SAF R-CNN. Particularly, our method achieves state-of-the-art performance on Caltech, INRIA, and ETH, and obtains competitive results on KITTI.

研究の動機と目的

小さな歩行者と大きな歩行者が著しく異なる視覚的特徴と特徴表現を示すという、歩行者検出における大きなカテゴリ内スケールばらつきの課題に対処すること。
非常に異なる歩行者サイズに一般化しにくい単一モデルアプローチの限界を克服すること。
異なるスケール範囲に特化した専用サブネットワークを学習するための統合フレームワークを構築すること。
推論時間の著しい増加を伴わずに、特に小さな歩行者に対する検出精度を向上させること。

提案手法

すべての提案領域に対して共通の特徴を抽出するために、共有畳み込みバックボーンを統合する。
大きさの異なる歩行者に最適化された、それぞれ別々の専用サブネットワーク（大サイズ用と小サイズ用）を設計する。
各オブジェクト提案の高さに応じて動的融合重みを計算するスケールに敏感な重み付け層を実装する。
ゲート関数を用いて、提案サイズに最も関連性の高いサブネットワークに高い信頼度を割り当て、予測の適応的融合を実現する。
共有特徴、サブネットワークヘッド、スケールに敏感な重みを統合的に最適化するエンドツーエンドの学習を実施する。
推論精度と計算コストのバランスを最適化する800pxを最適入力サイズとするマルチスケール入力戦略を採用する。

実験結果

リサーチクエスチョン

RQ1明示的に小・大サイズの歩行者に特化した特徴をモデル化することで、統合検出フレームワークが歩行者検出性能を向上させられるか？
RQ2標準的なマルチスケール推論や単一スケールリサイズと比較して、スケールに敏感な融合機構は、精度と効率の両面で優れているか？
RQ3別々のスケール範囲で学習された専用サブネットワークは、クラス内特徴ばらつきをどれほど低減させ、特に検出が難しい小さな歩行者を改善できるか？
RQ4提案されたスケールに敏感な重み付け機構は、各提案に対して最も関連性の高いサブネットワークを効果的に優先し、スケールにわたる堅牢な検出を実現できるか？

主な発見

SAF R-CNN は Caltech データセットで9.32%のミス率を達成し、Faster R-CNN やマルチスケール Fast R-CNN を含むすべてのベースラインを上回った。
INRIA データセットでは、多様な歩行者外見とスケールにわたる強力な一般化性能を示し、最先端の性能を達成した。
ETH データセットでも、遮蔽された歩行者を含む複雑でごみだらけのシーンにおいても競争力のある結果を得ており、そのロバストネスを確認した。
平均して1枚あたり0.59秒の推論時間であり、R-CNN より9.0倍速く、マルチスケール Fast R-CNN より5.2倍速く、優れた精度を維持している。
可視化結果から、他の最先端手法が見逃す境界がぼやけた、重度の遮蔽を受けても、SAF R-CNN は小サイズの歩行者を正しく検出できていることが確認された。
実験から、入力画像スケールを800pxに設定すると、精度と計算コストのトレードオフにおいて最良のバランスが得られ、より大きなスケールではほとんど利得がないことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。