QUICK REVIEW

[論文レビュー] Fused Deep Neural Networks for Efficient Pedestrian Detection

Xianzhi Du, Mostafa El‐Khamy|arXiv (Cornell University)|May 2, 2018

Video Surveillance and Tracking Methods参考文献 1被引用数 27

ひとこと要約

本論文では、1ショット検出器による候補生成とアンサンブル学習による深層検証ネットワーク、および意味的セグメンテーションネットワークを統合することで、効率的で高精度な歩行者検出を実現する融合型深層ニューラルネットワーク（F-DNN）を提案する。新規のソフトラベル学習法とソフト拒否統合戦略を用いることで、Caltechデータセット上で7.67%のログ平均ミス率を達成し、最先端の性能を発揮しながらも高い処理速度を維持した。

ABSTRACT

In this paper, we present an efficient pedestrian detection system, designed by fusion of multiple deep neural network (DNN) systems. Pedestrian candidates are first generated by a single shot convolutional multi-box detector at different locations with various scales and aspect ratios. The candidate generator is designed to provide the majority of ground truth pedestrian annotations at the cost of a large number of false positives. Then, a classification system using the idea of ensemble learning is deployed to improve the detection accuracy. The classification system further classifies the generated candidates based on opinions of multiple deep verification networks and a fusion network which utilizes a novel soft-rejection fusion method to adjust the confidence in the detection results. To improve the training of the deep verification networks, a novel soft-label method is devised to assign floating point labels to the generated pedestrian candidates. A deep context aggregation semantic segmentation network also provides pixel-level classification of the scene and its results are softly fused with the detection results by the single shot detector. Our pedestrian detector compared favorably to state-of-art methods on all popular pedestrian detection datasets. For example, our fused DNN has better detection accuracy on the Caltech Pedestrian dataset than all previous state of art methods, while also being the fastest. We significantly improved the log-average miss rate on the Caltech pedestrian dataset to 7.67% and achieved the new state-of-the-art.

研究の動機と目的

遮蔽や混雑といった複雑な状況下でも高精度かつリアルタイムの歩行者検出を達成する挑戦に応える。
アンサンブル学習と信頼度統合を活用して候補の検証を改善することで、歩行者検出における誤検出を低減する。
ソフト統合により、バウンディングボックス検出とピクセル単位の意味的セグメンテーションを統合することで、検出のロバスト性を向上させる。
IoUオーバーラップを浮動小数点ラベルとして符号化する新規なソフトラベル法を用いて、検証ネットワークの学習効率と一般化性能を向上させる。
学習可能な信頼度重み付けを用いた複数ネットワークの統合により、高精度を維持したまま軽量で高速な推論パイプラインを構築する。

提案手法

複数スケールおよびアスペクト比に対応する高カバレッジ・高誤検出率の歩行者候補を生成するため、SSDベースの1ショット検出器（SSD）を候補生成器として使用する。
予測されたバウンディングボックスと真値とのIoUをラベルとして用い、ソフトラベル化された候補上で複数の深層検証ネットワーク（GoogLeNet、ResNet-50）を独立して学習する。
学習可能な重みを用いて複数の検証ネットワークの予測と候補生成器の出力を統合するソフト拒否統合ネットワークを実装し、信頼度スコアを調整する。
ピクセル単位のシーン理解を提供する深層コンテキストアグリゲーション意味的セグメンテーションネットワークを統合し、カーネルベース手法を用いてその出力を検出信頼度にソフトに統合する。
統合プロセスをエンド・トゥ・エンドで最適化することで、異なるネットワークの意見に対する適応的重み付けを可能にする。
処理速度と精度のトレードオフを実現するため、高さが40ピクセル以上の候補に対してのみ処理を実行し、SqueezeNetと統合することでリアルタイム推論を実現する。

実験結果

リサーチクエスチョン

RQ1複数の深層検証ネットワークを用いたアンサンブル学習は、リアルタイム推論速度を維持したまま歩行者検出の精度を向上させることができるか？
RQ2ハードバイナリラベルではなく、IoUに基づくソフトラベルを用いることで、歩行者検証ネットワークの性能にどのような影響を与えるか？
RQ3オブジェクト検出に意味的セグメンテーションの予測を統合することで、遮蔽やごみまみれの状況のような困難な状況でのロバスト性がどの程度向上するか？
RQ4学習可能なソフト拒否統合メカニズムは、単純な平均化や投票よりも、複数の深層ネットワーク出力を統合する際に優れた性能を発揮するか？
RQ5アーキテクチャの選択（例：ネットワークタイプ、統合戦略）は、検出精度と推論速度のトレードオフにどのような影響を与えるか？

主な発見

提案されたF-DNNは、Caltech Pedestrianデータセットで7.67%という新しいログ平均ミス率を達成し、先行研究の8.18%を上回る性能を発揮した。
Caltech上では、すべての最先端手法の中で最も高速な推論速度を達成し、SqueezeNetと統合した場合の1枚あたりの処理時間は0.09秒であった。
ソフトラベル法により、部分的なオーバーラップがある曖昧なケースにおいても、IoUに基づく連続的监督が検証ネットワークの性能を顕著に向上させた。
統合ネットワークは、訓練データに非遮蔽歩行者が優勢であることを反映し、ResNet-50に2.22の重みを、GoogLeNetに1.11の重みを割り当てた。
意味的セグメンテーションの統合により、混雑したシーンや遮蔽状況での検出ロバスト性が向上し、定性的な可視化でもその効果が示された。
Caltech、INRIA、ETHの全データセットで、精度と速度の両面ですべての先行最先端手法を上回り、KITTIでも同等の結果を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。