QUICK REVIEW

[論文レビュー] Benchmark data and method for real-time people counting in cluttered scenes using depth sensors

Shijie Sun, Naveed Akhtar|arXiv (Cornell University)|Apr 12, 2018

Video Surveillance and Tracking Methods参考文献 7被引用数 19

ひとこと要約

本稿では、現実の複雑な環境下で人々がバスの乗降を行う4,600本を超えるビデオを含む、最初の大規模な公開RGB-DデータセットPCDSを紹介するとともに、深度動画を用いたリアルタイムの人々の数え上げ手法を提案する。この手法は、3次元点群を計算し、それを地面面に正規化された高さ画像に再投影することで、人間の頭部候補を検出・精緻化し、3次元人体モデルを用いてトラッキングを行い、出口の軌跡を集約して人数を数える。1.7 GHzプロセッサ上で45 fpsを達成し、PCDSにおいて高い精度を発揮する。

ABSTRACT

Vision-based automatic counting of people has widespread applications in intelligent transportation systems, security, and logistics. However, there is currently no large-scale public dataset for benchmarking approaches on this problem. This work fills this gap by introducing the first real-world RGB-D People Counting DataSet (PCDS) containing over 4,500 videos recorded at the entrance doors of buses in normal and cluttered conditions. It also proposes an efficient method for counting people in real-world cluttered scenes related to public transportations using depth videos. The proposed method computes a point cloud from the depth video frame and re-projects it onto the ground plane to normalize the depth information. The resulting depth image is analyzed for identifying potential human heads. The human head proposals are meticulously refined using a 3D human model. The proposals in each frame of the continuous video stream are tracked to trace their trajectories. The trajectories are again refined to ascertain reliable counting. People are eventually counted by accumulating the head trajectories leaving the scene. To enable effective head and trajectory identification, we also propose two different compound features. A thorough evaluation on PCDS demonstrates that our technique is able to count people in cluttered scenes with high accuracy at 45 fps on a 1.7 GHz processor, and hence it can be deployed for effective real-time people counting for intelligent transportation systems.

研究の動機と目的

深度センサーを用いた複雑なシーンにおけるリアルタイムの人々の数え上げのベンチマーク化のための、大規模な公開データセットの不足に応えること。
公共交通機関の入り口のような複雑な現実世界環境において、効率的でリアルタイムな人々の数え上げ手法を開発すること。
現実世界の深度動画データに一般的に見られる、隠蔽、ごみ、照明の変動、深度ノイズの影響を受ける状況でも、精度を向上させること。
3次元点群の再投影、3次元人体モデルを用いた頭部検出、および軌跡に基づく数え上げを統合することで、信頼性の高い数え上げを可能にすること。
研究の加速を図るため、公開可能なベンチマークデータセット（PCDS）を提供すること。

提案手法

手法はまず、静的背景を差し引くことで前景の動きを分離する。
深度フレームから3次元点群を構築し、それを地面面に垂直に再投影することで、セグメンテーションを向上させるための正規化された高さ画像を生成する。
深度に基づく頭部検出に適した複合特徴を用いて、高さ画像内で潜在的な人間の頭部を検出する。
3次元人体モデルを用いて、妥当な人間の頭部の位置とサイズをシミュレートすることで、頭部候補を精緻化し、検出の信頼性を向上させる。
幾何的整合性と複合特徴に基づいて分類・精緻化された運動経路を用いて、トラッキングアルゴリズムにより連続フレーム間での頭部の軌跡を追跡する。
人々の数は、シーンから退出する軌跡を集約することで数える。最終的な数え上げは、完全な退出軌跡の数から導出される。

実験結果

リサーチクエスチョン

RQ1照明、隠蔽、ノイズの実際の変動を再現した複雑なシーンにおける人々の数え上げのベンチマーク化を目的とした、大規模な実世界RGB-Dデータセットを構築可能か？
RQ2低コストのハードウェア上でリアルタイム性能（≥30 fps）を達成しつつ、複雑なシーンでも高い精度を維持できる深度ベースの手法は実現可能か？
RQ3地面面への3次元点群の再投影は、深度動画における頭部検出とセグメンテーションの向上にどの程度有効か？
RQ43次元人体モデルの統合は、ごみのあるシーンにおける頭部候補の精緻化と誤検出の低減にどの程度寄与するか？
RQ5精緻化された頭部検出を用いた軌跡ベースの数え上げは、部分的隠蔽や列の影響があっても高い精度を達成できるか？

主な発見

提案手法は1.7 GHzプロセッサと2GB RAMで、約45 fpsのリアルタイム性能を達成し、搭載型デプロイメントに適している。
PCDSデータセットにおいて、バスから退出する人の検出率は91.30%、進入する人の検出率は75.32%を達成し、現実世界の状況下でも優れた性能を示している。
トラッキング部は、退出軌跡の精度が0.98、再現率が0.97、F1スコアが0.98を達成しており、軌跡分類の信頼性が非常に高いことを示している。
高さ画像における複合特徴の使用は、受信器特性曲線（ROC）の結果から、進入および退出の両状況でAUC値が0.95以上であることが確認され、頭部検出精度の向上に顕著に寄与している。
PCDSデータセットには、多様な照明、隠蔽、ノイズ条件を備えた4,689本のビデオが含まれており、今後の研究における挑戦的で現実的なベンチマークとしての価値がある。
1フレームあたりの平均計算時間は22.1msであり、低リソースの組み込みシステムへのリアルタイムデプロイメントの可能性を裏付けている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。