QUICK REVIEW

[論文レビュー] Shallow Feature Based Dense Attention Network for Crowd Counting

Yunqi Miao, Zijia Lin|arXiv (Cornell University)|Jun 17, 2020

Video Surveillance and Tracking Methods被引用数 24

ひとこと要約

本稿では、初期層特徴を活用して背景ノイズを低減し、密なスキップ接続によりマルチスケールの人間特徴を保持する、浅い特徴に基づく密度注意ネットワークSDANetを提案する。UCF_CC_50でMAEを11.9%削減し、スケール変動やごみだらけの背景に対して優れたロバスト性を示した。

ABSTRACT

While the performance of crowd counting via deep learning has been improved dramatically in the recent years, it remains an ingrained problem due to cluttered backgrounds and varying scales of people within an image. In this paper, we propose a Shallow feature based Dense Attention Network (SDANet) for crowd counting from still images, which diminishes the impact of backgrounds via involving a shallow feature based attention model, and meanwhile, captures multi-scale information via densely connecting hierarchical image features. Specifically, inspired by the observation that backgrounds and human crowds generally have noticeably different responses in shallow features, we decide to build our attention model upon shallow-feature maps, which results in accurate background-pixel detection. Moreover, considering that the most representative features of people across different scales can appear in different layers of a feature extraction network, to better keep them all, we propose to densely connect hierarchical image features of different layers and subsequently encode them for estimating crowd density. Experimental results on three benchmark datasets clearly demonstrate the superiority of SDANet when dealing with different scenarios. Particularly, on the challenging UCF CC 50 dataset, our method outperforms other existing methods by a large margin, as is evident from a remarkable 11.9% Mean Absolute Error (MAE) drop of our SDANet.

研究の動機と目的

静止画像からの集団計数における、背景のごみとスケール変動という長年の課題に対処すること。
密度推定における傘、階段、建物などの背景要因による誤検出を低減すること。
深層ネットワークの異なる層を横断してマルチスケールの人間特徴を保持すること。
複雑でパラメータの多い独立型モデルを避ける、軽量な注目メカニズムを開発すること。
複数のネットワーク層からの階層的特徴を密に接続することで特徴表現を向上させること。

提案手法

本手法は、浅い畳み込み特徴マップを用いて注目重みを生成する注目マップ生成器（AMG）を採用し、活性化パターンの差異に基づいて集団領域と背景領域を区別する。
AMGは特徴抽出バックボーンに統合されており、追加パラメータや別個の分類器を必要とせず、エンドツーエンドの学習が可能である。
すべての先行層からの特徴を統合する密な接続構造を採用することで、マルチスケールの人間特徴が保持され、効果的に符号化される。
密度マップ推定の精度を向上させるために、粗いから細かい段階への修正戦略と、マルチスケール損失関数 $ L_{map} $ を使用する。
注目メカニズムは、背景の低減を最適化するため、バイナリクロスエントロピー損失 $ L_{att} $ を用いて学習される。
複数層からの特徴マップは連結され、精練層を経て最終的な密度マップが生成される。

実験結果

リサーチクエスチョン

RQ1浅い特徴マップは、集団計数において、集団領域とごみだらけの背景を効果的に区別できるか？
RQ2浅い特徴に基づく軽量な注目メカニズムは、複雑な独立型注目モデルを上回り、背景ノイズを低減できるか？
RQ3階層的特徴にわたる密なスキップ接続は、集団計数におけるマルチスケール表現学習を向上させられるか？
RQ4浅い注目と密な特徴統合の組み合わせは、多様な集団密度を示す困難なデータセット上で性能にどのように影響を与えるか？
RQ5粗いから細かい段階への修正戦略は、密度マップ推定の精度をどの程度向上させるか？

主な発見

UCF_CC_50データセットでは、SDANetは平均絶対誤差（MAE）を11.9%削減し、従来の最先端手法を顕著に上回った。
WorldExpo’10データセットでは、シーン1、シーン4、シーン5、および平均指標で最高の性能を達成し、多様な現実世界のシーンに強い適応性を示した。
ShanghaiTech Part-Bデータセットでは、最新手法TEDnetと比較して、MAEを4.87%、MSEを20.31%削減した。
アブレーションスタディの結果、注目モジュールを削除するとMAEが37%上昇し、背景低減におけるその重要性が裏付けられた。
密な接続構造を削除すると、カウント精度が20.1%低下し、マルチスケール特徴の保持におけるその重要性が確認された。
精練層を削除するとMAEが16%上昇し、粗いから細かい段階への学習戦略の有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。