Skip to main content
QUICK REVIEW

[論文レビュー] End-to-end people detection in crowded scenes

Russell J. Stewart, Mykhaylo Andriluka|arXiv (Cornell University)|Jun 16, 2015
Video Surveillance and Tracking Methods参考文献 15被引用数 29
ひとこと要約

この論文は、非最大抑制などの後処理を不要とする、LSTMデコーダーを用いて画像から人物検出の集合を直接出力するエンドツーエンドの再帰的ニューラルネットワークベースの物体検出システムを提案する。本手法は、混雑したシーンのデータセットで81%のリcallと0.78のAPを達成し、集合値予測に適した新しい微分可能な損失関数により、OverFeat-GoogLeNetを著しく上回る性能を発揮した。

ABSTRACT

Current people detectors operate either by scanning an image in a sliding window fashion or by classifying a discrete set of proposals. We propose a model that is based on decoding an image into a set of people detections. Our system takes an image as input and directly outputs a set of distinct detection hypotheses. Because we generate predictions jointly, common post-processing steps such as non-maximum suppression are unnecessary. We use a recurrent LSTM layer for sequence generation and train our model end-to-end with a new loss function that operates on sets of detections. We demonstrate the effectiveness of our approach on the challenging task of detecting people in crowded scenes.

研究の動機と目的

  • 従来の手法が重複する検出により失敗する、重なり合う人物が多数存在する混雑したシーンにおける複数の部分的遮蔽された人物の検出という課題に対処すること。
  • 非最大抑制のような後処理ステップに依存しないように、順序付きに検出を同時に生成することで、後処理を排除すること。
  • 特徴抽出、検出、信頼度予測を同時に最適化できる、トレーニング可能なエンドツーエンドのシステムを構築すること。
  • 可変長で重複するインスタンスを含む物体検出の集合を最適化するのに適した微分可能な損失関数を設計すること。
  • 本手法が、高密度で遮蔽が顕著な複雑な現実世界のシナリオへの一般化性を示すこと。

提案手法

  • モデルは、検出タスクの入力表現として、エンドツーエンドで微調整されたGoogLeNet特徴量を用いる。
  • 再帰的LSTM層が画像表現を可変長のバウンディングボックス予測の系列にデコードする。
  • 各LSTMステップは、クラス、位置、信頼度スコアを含む検出仮説を生成する。
  • 新しい微分可能な損失関数L_setは、重複と局所化誤差を考慮した微分可能なマッチング関数を用いて、予測された検出を真値と照合する。
  • 損失関数により、全系列にわたる誤差逆伝播が可能となり、特徴抽出と検出コンponentの同時学習が可能になる。
  • LSTMの隠れ状態を介して以前に生成された出力を参照することで、重複する検出を回避する。

実験結果

リサーチクエスチョン

  • RQ1非最大抑制などの後処理を伴わず、画像から可変長の物体検出系列を再帰的ニューラルネットワークで効果的に生成できるか?
  • RQ2可変サイズで重複するインスタンスを含む物体検出の集合を最適化するための微分可能な損失関数をどのように設計できるか?
  • RQ3系列生成型検出器のエンドツーエンド学習は、2段階手法と比較して混雑したシーンでの性能を向上させるか?
  • RQ4ヒューリスティックな後処理に依存せずに、モデルが適切な信頼度スコアを検出に割り当てられるか?
  • RQ5本手法は、OverFeat や R-CNN と比較して、混雑したシーンにおけるリcallと平均平均精度(mAP)の観点でどの程度優れているか?

主な発見

  • 提案手法は混雑したシーンデータセットで81%のリcallを達成し、OverFeat-GoogLeNetの71%を著しく上回った。
  • モデルは0.78の平均平均精度(AP)に達し、OverFeat-GoogLeNetの0.67 APを大きく上回った。
  • 人物数の推定誤差は、OverFeat-GoogLeNetの1.05から0.76に低下し、オブジェクト数の推定精度が向上したことを示した。
  • 固定された空間的順序を強制するL_fix損失は性能が低く、柔軟で学習可能な順序付けが性能に不可欠であることを示した。
  • 上位k個の予測を真値とマッチングするL_firstk損失はL_fixより優れた性能を示したが、意味のある信頼度スコアを学習できず、損失関数における重複を考慮したマッチングの重要性を浮き彫りにした。
  • 図3の緑矢印が示すように、強い遮蔽状況下でもモデルは人物を正しく検出できたが、OverFeatは混雑した領域での人物検出に失敗した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。