Skip to main content
QUICK REVIEW

[論文レビュー] Beyond Counting: Comparisons of Density Maps for Crowd Analysis Tasks - Counting, Detection, and Tracking

Di Kang, Zheng Ma|arXiv (Cornell University)|May 29, 2017
Video Surveillance and Tracking Methods参考文献 35被引用数 24
ひとこと要約

本稿は、集団分析における密度マップ推定手法を評価し、数え上げ、検出、トラッキングの各タスクにおいて、低解像度とフル解像度の密度マップを比較する。低解像度マップは数え上げタスクでは優れた性能を示すが、スライディングウィンドウCNN(CNN-pixel)およびスキップ接続を備えた完全畳み込みネットワーク(FCNN-skip)によって生成されるフル解像度マップは、アップサンプリング手法に比べて局所化タスクで顕著に優れる。ただし、計算コストと複雑さがやや高いため、数え上げ精度はわずかに劣る。

ABSTRACT

For crowded scenes, the accuracy of object-based computer vision methods declines when the images are low-resolution and objects have severe occlusions. Taking counting methods for example, almost all the recent state-of-the-art counting methods bypass explicit detection and adopt regression-based methods to directly count the objects of interest. Among regression-based methods, density map estimation, where the number of objects inside a subregion is the integral of the density map over that subregion, is especially promising because it preserves spatial information, which makes it useful for both counting and localization (detection and tracking). With the power of deep convolutional neural networks (CNNs) the counting performance has improved steadily. The goal of this paper is to evaluate density maps generated by density estimation methods on a variety of crowd analysis tasks, including counting, detection, and tracking. Most existing CNN methods produce density maps with resolution that is smaller than the original images, due to the downsample strides in the convolution/pooling operations. To produce an original-resolution density map, we also evaluate a classical CNN that uses a sliding window regressor to predict the density for every pixel in the image. We also consider a fully convolutional (FCNN) adaptation, with skip connections from lower convolutional layers to compensate for loss in spatial information during upsampling. In our experiments, we found that the lower-resolution density maps sometimes have better counting performance. In contrast, the original-resolution density maps improved localization tasks, such as detection and tracking, compared to bilinear upsampling the lower-resolution density maps. Finally, we also propose several metrics for measuring the quality of a density map, and relate them to experiment results on counting and localization.

研究の動機と目的

  • 数え上げ、検出、トラッキングの複数の集団分析タスクにおいて、密度マップ推定手法の性能を評価すること。
  • アップサンプリングされた低解像度マップと比較して、フル解像度密度マップが局所化精度を向上させられるかどうかを調査すること。
  • 正確な数え上げと効果的な検出/トラッキングを支援する高品質な密度マップの特徴を同定・定量すること。
  • 空間的コンパクト性、局所化精度、時間的整合性に基づいて、密度マップ品質を評価するための新規指標を提案すること。
  • 異なるネットワークアーキテクチャおよび学習戦略における、計算複雑性と性能のトレードオフを理解すること。

提案手法

  • 入力画像の各ピクセルに対して密度値を予測するスライディングウィンドウCNN(CNN-pixel)を提案し、フル解像度の密度マップを生成する。
  • CNN-pixelを、低層からのスキップ接続を備えた完全畳み込みネットワーク(FCNN-skip)に変換し、アップサンプリング中に空間的詳細を保持する。
  • 構造的忠実性とグローバルな正確性の両立を図るため、ピクセル単位の回帰損失とパッチ単位の数え上げ損失を組み合わせたマルチタスク損失を用いてモデルを学習する。
  • インダクティブバイアスの異なる異なる誘導的バイアスを持つアーキテクチャ(例:DenseNetの変種)を用いて、ホールコネルションと併せてフル解像度予測を検討する。
  • 空間的コンパクト性、局所化精度、時間的整合性といった新規評価指標を導入し、密度マップ品質の分析に用いる。
  • 標準データセット(UCSD、ShanghaiTech)を用いて、数え上げ(MAE)、検出(IntProg、GMM-weight)、トラッキング(MOT指標)の各タスクで手法を比較する。

実験結果

リサーチクエスチョン

  • RQ1数え上げ、検出、トラッキングの各タスクにおいて、低解像度密度マップとフル解像度密度マップの性能はどのように比較されるか?
  • RQ2ピクセル単位の密度予測(CNN-pixel)によって生成されるフル解像度密度マップは、アップサンプリングされた低解像度マップに比べて、より優れた局所化性能を達成できるか?
  • RQ3損失関数(ピクセル単位、数え上げ単位、または組み合わせ)は、予測された密度マップの空間的構造と正確性にどのように影響を与えるか?
  • RQ4アーキテクチャ的選択(スキップ接続、ホールコネルション、ネットワークの深さなど)は、下流タスクにおける密度マップの品質と有用性にどのように影響するか?
  • RQ5数え上げ精度が類似しているが、局所化性能に差がある密度マップの間で、性能差を最もよく説明する指標は何か?

主な発見

  • CNN-pixelによって生成されたフル解像度密度マップは、検出およびトラッキングタスクで最も優れた性能を示し、低解像度マップのバイリニアアップサンプリングに比べて顕著に優れた。
  • 低解像度マップ(例:MCNNやスキップ接続なしのFCNN)は、フル解像度手法(例:CNN-pixel)よりも優れた数え上げ精度(MAE: 1.26)を達成しており、解像度とグローバルな数え上げ正確性の間にはトレードオフがあることが示された。
  • ピクセル単位と数え上げ単位の両方の損失を用いたFCNN-skipモデルが、最も良好なバランスを達成し、MAEは1.26、局所化品質も優れた。一方、数え上げ損失を削除すると誤差が増大し、MAEは1.41に上昇した。
  • 数え上げ損失のみで学習された密度マップは密度値が広がり、局所化性能が著しく低下し、MAEも1.82に上昇した。これは、空間的構造を維持するためにはピクセル単位の監視が必要であることを示している。
  • 視覚的アウェアネスを持つ真値密度マップ(CNN-pixel-VS)を用いた場合、すべてのタスクで性能が低下し、MAEは1.48に上昇した。これは予測が過剰に滑らかになりすぎたためである。
  • ホールコネルションを用いたフル解像度予測は、性能が著しく低かった(MAE: 1.93)上に、アップサンプリングベースのFCNNより遅く、スライディングウィンドウCNNと同様の性能を示した。これは、スキップ接続を備えたアップサンプリングが、フル解像度密度マップ推定においてより効果的であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。