QUICK REVIEW

[論文レビュー] FCHD: Fast and accurate head detection in crowded scenes

Aditya Vora, Vinay Chilaka|arXiv (Cornell University)|Sep 24, 2018

Advanced Neural Network Applications参考文献 25被引用数 23

ひとこと要約

FCHDは、有効受容 field に基づくアンカー選択を用いて、混雑したシーンに最適化された軽量で完全畳み込み型の頭部検出モデルを提案する。Brainwashデータセットでは0.70 mAPを達成し、Quadro M1000M GPU上で5 FPSの推論速度を実現。メモリ使用量と推論時間が少なく、エッジデプロイメントに適している。

ABSTRACT

In this paper, we propose FCHD-Fully Convolutional Head Detector, an end-to-end trainable head detection model. Our proposed architecture is a single fully convolutional network which is responsible for both bounding box prediction and classification. This makes our model lightweight with low inference time and memory requirements. Along with run-time, our model has better overall average precision (AP) which is achieved by selection of anchor sizes based on the effective receptive field of the network. This can be concluded from our experiments on several head detection datasets with varying head counts. We achieve an AP of 0.70 on a challenging head detection dataset which is comparable to some standard benchmarks. Along with this our model runs at 5 FPS on Nvidia Quadro M1000M for VGA resolution images. Code is available at https://github.com/aditya-vora/FCHD-Fully-Convolutional-Head-Detector.

研究の動機と目的

従来のモデルが小規模な頭部と高密度のため失敗する、極めて混雑したシーンにおける正確な頭部検出の課題に対処する。
リソース制約のあるデバイス向けにエッジデプロイメントに適した軽量でリアルタイムの頭部検出システムを開発する。
理論的受容 field ではなく、有効受容 field に基づくアンカー尺度の最適化により、混雑したシーンにおける検出性能を向上させる。
低推論時間と低メモリ使用量を維持しながら、ベンチマーク頭部検出データセットで最先端または競争力のある性能を達成する。

提案手法

事前学習済みVGG16に基づく完全畳み込みネットワーク（FCN）アーキテクチャを採用。conv5以降の最終層を削除し、3つの新しい1×1畳み込みヘッドを追加する。
1つの完全畳み込みネットワークを用いて、バウンディングボックス座標（回帰ヘッド）と頭部分類スコア（分類ヘッド）を同時に予測し、エンドツーエンドの学習を可能にする。
アンカーに基づく検出を実装。各特徴マップの位置ごとに2つのアンカーサイズを用い、ネットワークの有効受容 field に基づいて選択することで、混雑したシーンにおける典型的な頭部スケールに適応する。
回帰ヘッドおよび分類ヘッドの両方で1×1畳み込みを適用。出力次元は1位置あたりのアンカー数（N=2）に依存する。
バウンディングボックス変換を適用し、予測されたスケールおよびシフト値を各アンカーの実際の空間座標に変換する。
標準的な検出損失関数を用いてモデルを学習。アンカーサイズ選択の有効性を検証するためのアブレーションスタディを実施。

実験結果

リサーチクエスチョン

RQ1理論的受容 field や固定アンカーサイズと比較して、有効受容 field に基づくアンカー選択は、混雑したシーンにおける頭部検出性能をどのように向上させるか？
RQ2完全畳み込み型で単一段階の頭部検出モデルは、エッジデプロイメントに適した低推論時間と低メモリ使用量を維持しながら、競争力のある正確性を達成できるか？
RQ3異なるアンカーサイズの組み合わせが、高密度頭部検出シナリオにおけるmAPと推論速度に与える影響は何か？
RQ4FCHDモデルは、ReInspect やRCNNベースの検出器といった最先端モデルと比較して、ベンチマークデータセットにおける精度、再現率、mAPの観点でどのように異なるか？
RQ5本モデルは、高オクルージョンや高密度のシナリオといった困難な条件下でも一般化できるか？

主な発見

FCHDは、挑戦的なBrainwashデータセットで0.70 mAPを達成。3つのベースラインを上回り、最高性能を示したモデル（0.78 mAP）と同等の性能を示した。
HollywoodHeadsデータセットでは、mAPが0.74を達成。これは前回の最先端性能よりも約2%高い。
NVIDIA Quadro M1000M GPU上で5 FPSで実行可能。これはReInspectの5倍速く、Jetson TX2エッジデバイスでは1.6 FPSを達成。
アブレーションスタディにより、アンカーサイズが32×32および64×64の組み合わせが最も高いmAP（0.70）を達成しており、有効受容 field に基づくアンカー選択の有効性が裏付けられた。
高オクルージョンおよび高密度シナリオにおいてもモデルの頑健性が確認され、定性的な結果（図3）では成功した検出が示されたが、低頭部密度のシナリオでは時々失敗した（図4）。
低メモリフットプリントのおかげで、ReInspectがメモリ制限によりロードに失敗する可能性がある埋め込みプラットフォーム（例：Jetson TX2）へのデプロイメントが可能となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。