QUICK REVIEW

[論文レビュー] Dense Scale Network for Crowd Counting

Feng Dai, Hao Liu|arXiv (Cornell University)|Jun 24, 2019

Video Surveillance and Tracking Methods参考文献 31被引用数 24

ひとこと要約

本稿では、広範で連続的なスケール範囲を捉えるために、慎重に選択された拡張率を有する密接接続型拡張畳み込みブロックを用いた、密集スケール単一コラム畳み込みニューラルネットワーク（DSNet）を提案する。3つのこのようなブロックをスタックし、密接な残差接続を導入することで、有効な受容 field を段階的に拡大し、スケール多様性を向上させる。さらに、マルチスケール密度レベル一貫性損失を導入することで、予測値と真値マップの間で複数のスケールレベルで一貫性を保証する。その結果、UCF-QNRF および UCF_CC_50 では MAE を最大30%、ShanghaiTech および UCSD では20%削減し、4つのベンチマークデータセットで最先端の性能を達成した。

ABSTRACT

Crowd counting has been widely studied by computer vision community in recent years. Due to the large scale variation, it remains to be a challenging task. Previous methods adopt either multi-column CNN or single-column CNN with multiple branches to deal with this problem. However, restricted by the number of columns or branches, these methods can only capture a few different scales and have limited capability. In this paper, we propose a simple but effective network called DSNet for crowd counting, which can be easily trained in an end-to-end fashion. The key component of our network is the dense dilated convolution block, in which each dilation layer is densely connected with the others to preserve information from continuously varied scales. The dilation rates in dilation layers are carefully selected to prevent the block from gridding artifacts. To further enlarge the range of scales covered by the network, we cascade three blocks and link them with dense residual connections. We also introduce a novel multi-scale density level consistency loss for performance improvement. To evaluate our method, we compare it with state-of-the-art algorithms on four crowd counting datasets (ShanghaiTech, UCF-QNRF, UCF_CC_50 and UCSD). Experimental results demonstrate that DSNet can achieve the best performance and make significant improvements on all the four datasets (30% on the UCF-QNRF and UCF_CC_50, and 20% on the others).

研究の動機と目的

画像内での人間のサイズや密度に顕著な変動が生じる集団数え上げの課題に対処すること。
既存のマルチコラムまたはマルチブランチネットワークが、離散的な少数のスケールしか捉えられないという制限を克服すること。
受容 field 全体にわたり密接で連続的なスケールサンプリングを可能にすることで、疎な集団と密集した集団の両方の状況における特徴表現を向上させること。
予測値マップと真値マップの間で、複数のスケールレベルで密度レベルの一貫性を強制する新しい損失関数を導入することで、モデルの汎化性能を向上させること。
複雑なマルチブランチ設計を凌駕する単一コラムアーキテクチャを用いて、エンド・ツー・エンドの学習を実現し、標準ベンチマークで優れた性能を達成すること。

提案手法

複数の拡張畳み込みを、慎重に選択された拡張率で密接に接続した、Dense Dilation Convolution Block (DDCB) を提案する。これにより、マルチスケール特徴を保持し、グリッドアーチファクトを回避できる。
3つの DDCB をスタックし、それらを密接な残差接続で接続することで、有効な受容 field を段階的に拡大し、スケール多様性を向上させる。
予測値マップと真値マップの間で、異なるスケールレベル（例：1×1、2×2、4×4 プーリング出力）でグローバルおよびローカルの一貫性を強制する、マルチスケール密度レベル一貫性損失（$L_c$）を導入する。
標準的なユークリッド損失と提案された $L_c$ 損失の組み合わせを用いて、ネットワーク全体をエンド・ツー・エンドで学習させ、スケール間の特徴整合性を向上させる。
バックボーンとして VGG-16 を用い、段階的に DDCB ブロックと残差接続を追加することで、各構成要素の寄与度をアブレーションする。
複数のスケールレベルで平均プーリングを適用し、一貫性損失の計算に用いる密度レベルの表現を抽出することで、グローバルおよびローカル構造の整合性を保証する。

実験結果

リサーチクエスチョン

RQ1密接に接続された拡張畳み込みを備えた単一コラム畳み込みニューラルネットワークは、集団数え上げにおいて、連続的かつ広範なスケール範囲を効果的に捉えることができるか？
RQ2標準的な残差接続と比較して、DDCB ブロック間の密接な残差接続は、スケール多様性と特徴の再利用性をさらに向上させるか？
RQ3マルチスケール密度レベル一貫性損失は、異なる空間スケールで構造的および強度的一致性を強制することで、予測密度マップの品質を向上させることができるか？
RQ4特にスケール変動が極端なデータセットにおいて、提案された損失関数は、誤差をどの程度低減させるか？
RQ5DSNet は、多様な集団数え上げベンチマークにおいて、MAE および MSE の両指標で最先端手法と比較してどの程度優れているか？

主な発見

ShanghaiTech Part_B データセットでは、MAE が 6.74 にまで低下し、従来の最先端手法を大きく上回った。
UCF-QNRF および UCF_CC_50 データセットでは、既存手法と比較して MAE を約30%削減し、極度に密集したシーンでも優れた性能を示した。
アブレーションスタディの結果、DDCB ブロックの追加のみで MAE が 15.21 から 7.33 に低下し、スケールモデリングの向上による顕著な改善が示された。
密接な残差接続の導入により、MAE は 7.06 から 6.74 にさらに低下し、ブロック間でのマルチスケール特徴の統合効果が裏付けられた。
マルチスケール一貫性損失（$L_c$）は顕著な貢献を示し、最後に追加した際には MAE を 7.06 から 6.74 に低下させ、各スケールレベル（1×1、2×2、4××4）で段階的な改善が得られた。
全構成要素を統合した完全なモデルは、ShanghaiTech、UCF-QNRF、UCF_CC_50、UCSD の4つのベンチマークデータセットにおいて、MAE および MSE の両指標で最先端の性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。