QUICK REVIEW

[論文レビュー] People Counting in High Density Crowds from Still Images

Ankan Bansal, K. S. Venkatesh|arXiv (Cornell University)|Jul 30, 2015

Video Surveillance and Tracking Methods参考文献 14被引用数 24

ひとこと要約

本稿では、SIFT特徴量、フーリエ解析、ウェーブレット分解、GLCM特徴量、および低信頼度の頭部検出を用いて、高密度の静止画像における群衆数推定のためのマルチソース融合手法を提案する。1枚あたり最大4,633人の人物を含む100枚の画像からなるデータセット上で、平均絶対誤差（MAE）が377.7 ± 480.8、平均正規化絶対誤差（NAE）が0.666 ± 1.123を達成し、単一特徴量手法が失敗する極端な密度状況においても頑健であることを示している。

ABSTRACT

We present a method of estimating the number of people in high density crowds from still images. The method estimates counts by fusing information from multiple sources. Most of the existing work on crowd counting deals with very small crowds (tens of individuals) and use temporal information from videos. Our method uses only still images to estimate the counts in high density images (hundreds to thousands of individuals). At this scale, we cannot rely on only one set of features for count estimation. We, therefore, use multiple sources, viz. interest points (SIFT), Fourier analysis, wavelet decomposition, GLCM features and low confidence head detections, to estimate the counts. Each of these sources gives a separate estimate of the count along with confidences and other statistical measures which are then combined to obtain the final estimate. We test our method on an existing dataset of fifty images containing over 64000 individuals. Further, we added another fifty annotated images of crowds and tested on the complete dataset of hundred images containing over 87000 individuals. The counts per image range from 81 to 4633. We report the performance in terms of mean absolute error, which is a measure of accuracy of the method, and mean normalised absolute error, which is a measure of the robustness.

研究の動機と目的

静止画像からの極めて高密度な群衆の人数数え上げに効果的な手法が不足している問題に対処する。既存手法は遮蔽や透視効果のため失敗する。
単一特徴量手法の限界を克服するため、補完的な情報源を統合することで、精度と頑健性を向上させる。
巡礼地やパニック発生リスクの高い地域などの重要な応用分野に適した、スケーラブルでリアルタイム対応可能なシステムを開発する。
UCF群衆数え上げデータセットを拡張し、50枚の新しいアノテート済み画像を追加して、高密度群衆数え上げのためのより大きなベンチマークを構築する。
テクスチャベースの解析と特徴点、頭部検出の組み合わせが、極端な密度状況下で単一手法を上回ることを実証する。

提案手法

SIFT記述子、フーリエ解析、ウェーブレット分解、GLCM特徴量、および低信頼度の頭部検出といった複数の独立した特徴量を統合して群衆数を推定する。
各特徴量ソースが、関連する信頼度と統計的指標を伴って別個の推定値を提供し、統合に用いる。
異なるソースからの推定値を重み付き統合戦略で統合し、最終的な頑健な数え上げ予測を生成する。
パッチ単位および画像単位の評価を実施し、さまざまな密度と画像複雑度における性能を評価する。
精度と頑健性を評価する主な指標として、正規化絶対誤差（NAE）と平均絶対誤差（MAE）を用いる。
100枚のアノテート済み高密度群衆画像からなる新しいデータセットを導入する。

実験結果

リサーチクエスチョン

RQ1静止画像からの高密度群衆数え上げにおいて、マルチソース統合フレームワークは単一特徴量手法を上回ることができるか？
RQ2極端な密度状況下で、テクスチャベース特徴量（フーリエ、ウェーブレット、GLCM）と検出ベース特徴量の性能はどのように比較されるか？
RQ3透視歪みやレンズ歪みが、群衆数え上げモデルの精度にどの程度悪影響を及えるか？
RQ4低信頼度の頭部検出を含めることで、個体検出に失敗する高密度領域の推定精度が向上するか？
RQ5群衆密度が低から極めて高密度（1枚あたり最大4,633人）にわたる広い範囲で、モデルの性能はどの程度か？

主な発見

100枚の画像からなる全データセット上で、平均絶対誤差（MAE）は377.7 ± 480.8、平均正規化絶対誤差（NAE）は0.666 ± 1.123を達成した。
Rodriguezら[25]およびLempitskyら[3]の手法を上回ったが、Idreesら[14]のより計算コストの高いモデルには及ばなかった。
誤差が最も高い上位10%の画像を除いた場合、MAEは256.3 ± 217.7に低下し、NAEは0.407 ± 0.328にまで低下した。これは、多数の画像で優れた性能を発揮していることを示している。
高い絶対誤差は、主に2,000人を超える非常に高密度の画像における極端な透視変化とレンズ歪みによって引き起こされている。
テクスチャベース手法（ウェーブレット、GLCM特徴量）は、500人未満の低密度領域では限界があるが、頭部検出と特徴点はより優れた性能を示す。
2,000人未満の画像ではパッチ単位の誤差が低く安定しているが、高密度画像では著しく増加し、極端な密度における性能の限界があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。