[論文レビュー] $CrowdDiff$: Multi-hypothesis Crowd Density Estimation using Diffusion Models
CrowdDiff は crowd density map generation を条件付き denoising diffusion process として扱い、高忠実度で狭いカーネル密度マップを生成し、複数実現の統合を活用してカウントを改善します。
Crowd counting is a fundamental problem in crowd analysis which is typically accomplished by estimating a crowd density map and summing over the density values. However, this approach suffers from background noise accumulation and loss of density due to the use of broad Gaussian kernels to create the ground truth density maps. This issue can be overcome by narrowing the Gaussian kernel. However, existing approaches perform poorly when trained with ground truth density maps with broad kernels. To deal with this limitation, we propose using conditional diffusion models to predict density maps, as diffusion models show high fidelity to training data during generation. With that, we present $CrowdDiff$ that generates the crowd density map as a reverse diffusion process. Furthermore, as the intermediate time steps of the diffusion process are noisy, we incorporate a regression branch for direct crowd estimation only during training to improve the feature learning. In addition, owing to the stochastic nature of the diffusion model, we introduce producing multiple density maps to improve the counting performance contrary to the existing crowd counting pipelines. We conduct extensive experiments on publicly available datasets to validate the effectiveness of our method. $CrowdDiff$ outperforms existing state-of-the-art crowd counting methods on several public crowd analysis benchmarks with significant improvements.
研究の動機と目的
- 密度マップを用いた群衆カウントを動機づけるが、狭いガウシアンカーネルを用いることで背景ノイズとカーネル損失を緩和する。
- 密度マップを生成し、人口分布をより忠実に学習するための条件付き拡散モデルフレームワークを提案する。
- 狭いカーネル密度マップの閾値処理によるカウントメカニズムと、複数の拡散実現にまたがる統合戦略を導入する。
- カウントの特徴学習を改善するため、トレーニング時に補助的回帰ブランチを導入する。
- 複数の公開群衆カウントデータセットで最先端の性能を示す。
提案手法
- 入力画像を条件としたノイズ除去拡散過程として密度マップ生成を定式化する。
- 狭いガウスカーネル(3x3、sigma=0.5)を採用してグラウンドトゥルース密度マップを生成し、背景の干渉を低減する。
- ノイズ予測とカウント損失を組み合わせたハイブリッド損失でノイズ除去U-Netを訓練する。
- エンコーダ-デコーダ機能からカウントを回帰するカウントブランチを訓練中に含める。
- 確率的拡散によって複数の密度マップ実現を生成し、カウントを改善するためにそれらを統合する(crowd map fusion)。
- 統合中は密度マップを閾値処理してドットマップを得、SSIMガイド付きの拒否半径機構で実現を結合し、重複カウントを回避する。

実験結果
リサーチクエスチョン
- RQ1条件付き拡散モデルは背景ノイズを緩和しつつ、群衆画像の高忠実度密度マップを生成できるか?
- RQ2狭いカーネルを使用することは、広いカーネルのグラウンドトゥルースより密度マップの忠実度とカウント精度を向上させるか?
- RQ3拡散モデルの複数仮説実現を統合して、単一実現よりも良いカウントが得られるか?
- RQ4トレーニング中の補助的回帰監督は、拡散ベースの群衆カウントにおけるカウントの特徴学習を強化するか?
- RQ5標準的な群衆カウントベンチマークにおける CrowdDiff の性能は、最先端手法とどのように比較されるか?
主な発見
| Method | JHU-Crowd++ MAE | JHU-Crowd++ MSE | ShanghaiTech A MAE | ShanghaiTech A MSE | ShanghaiTech B MAE | ShanghaiTech B MSE | UCF-CC-50 MAE | UCF-CC-50 MSE | UCF-QNRF MAE | UCF-QNRF MSE | NWPU-Crowd MAE | NWPU-Crowd MSE |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CrowdDiff | 47.3 | 198.9 | 47.4 | 75.0 | 5.7 | 8.2 | 160.8 | 225.0 | 68.9 | 125.6 | 57.8 | 221.2 |
- CrowdDiff は複数の公開データセット(例:JHU-Crowd++、ShanghaiTech、UCF-QNRF、NWPU-Crowd)で最先端の結果を達成する。
- 狭いカーネルは混雑領域の密度をより良く保持し、広いカーネルと比較して情報損失を低減する。
- 密度マップ上の閾値処理に基づくカウント(画素値の総和ではなく)は背景ノイズを減らし、頑健性を向上させる。
- 複数実現の統合(crowd map fusion)は拡散の確率性を活用してカウントを改善し、単一実現のベースラインを上回る。
- 中間拡散特徴で訓練されたカウントブランチはカウント性能を改善し、実現間の変動を減少させる。
- データセットをまたいで、CrowdDiff は密集した場合と希薄な場合の両方で優れた性能を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。