Skip to main content
QUICK REVIEW

[論文レビュー] Crowd Counting and Density Estimation by Trellis Encoder-Decoder Network

Xiaolong Jiang, Zehao Xiao|arXiv (Cornell University)|Mar 3, 2019
Video Surveillance and Tracking Methods参考文献 49被引用数 78
ひとこと要約

TEDnetは、密なスキップ接続と組み合わせ損失を備えたトレリス型の多経路エンコーダ-デコーダを提案し、高品質な密度マップと正確な crowd counts を生成し、複数のベンチマークで最先端の結果を達成します。

ABSTRACT

Crowd counting has recently attracted increasing interest in computer vision but remains a challenging problem. In this paper, we propose a trellis encoder-decoder network (TEDnet) for crowd counting, which focuses on generating high-quality density estimation maps. The major contributions are four-fold. First, we develop a new trellis architecture that incorporates multiple decoding paths to hierarchically aggregate features at different encoding stages, which can handle large variations of objects. Second, we design dense skip connections interleaved across paths to facilitate sufficient multi-scale feature fusions and to absorb the supervision information. Third, we propose a new combinatorial loss to enforce local coherence and spatial correlation in density maps. By distributedly imposing this combinatorial loss on intermediate outputs, gradient vanishing can be largely alleviated for better back-propagation and faster convergence. Finally, our TEDnet achieves new state-of-the art performance on four benchmarks, with an improvement up to 14% in terms of MAE.

研究の動機と目的

  • 遮蔽とスケール変動下での空間的精度を保ちつつ、堅牢な群衆カウントを動機付ける。
  • 高解像度の定位を維持しつつセマンティック特徴を抽出するネットワークを開発する。
  • パッチベース手法を超える密度マップ品質を実現するため、マルチパス融合と分散監 supervision を通じて。
  • 新規の組合せ損失を用いて勾配消失とマップの一貫性を改善する。
  • 標準的なベンチマークで最先端のカウント精度と密度マップ品質を示す。

提案手法

  • 限定的なダウンサンプリングでスケール適応特徴を抽出するマルチスケールエンコーダを導入する。
  • 多数のデコード経路に沿って特徴を階層的に統合する密なスキップ接続を備えたマルチパスデコーダを設計する。
  • 相応の損失を持つ中間密度マップ出力を追加して分散監 supervision を適用する。
  • 局所的一貫性と空間相関を密度マップに課すSpatial Abstraction Loss (SAL)とSpatial Correlation Loss (SCL)からなる組合せ損失を提案する。
  • ローカライズ精度を保持するためにパッチではなく全解像度の密度マップ上で損失を計算する。
  • 固定のガウス ground-truth マップとオンラインデータ拡張を用いて、全画像でAdamでエンドツーエンドに学習する。

実験結果

リサーチクエスチョン

  • RQ1混雑したシーンのピクセル単位の密度推定をトレリス状の多経路エンコーダ-デコーダで改善できるか。
  • RQ2デンスな経路間の統合がマルチスケール特徴の統合と密度マップ品質を向上させるか。
  • RQ3分散監 supervisionと組合せ損失は勾配フローを改善し勾配消失に対処できるか。
  • RQ4TEDnetは標準ベンチマークでMAE/MSEと密度マップ品質(PSNR/SSIM)の点で従来手法と比較してどうか。

主な発見

  • TEDnetは4つのベンチマークで最先端のパフォーマンスを達成し、従来手法に対してMAEの顕著な改善を示す。
  • 密なスキップ接続を備えたマルチパスデコーダは密度マップ品質(PSNR/SSIM)とカウント精度を向上させる。
  • 分散監 supervisionは勾配消失を抑制し収束を加速する。
  • 組合せ損失のSAL/SCLは密度マップの一貫性と空間相関を改善し、カウント性能をさらに高める。
  • TEDnetは全画像から全解像度の密度マップを生成し、パッチベース手法に典型的な境界アーチファクトを回避する。
  • TEDnetは軽量なパラメータ量を維持しつつ、優れた密度マップ品質とカウント精度を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。