[論文レビュー] Crowd Counting by Adaptively Fusing Predictions from an Image Pyramid
本論文は、画像ピラミッドに基づく群衆カウント手法を提案し、複数スケールからの密度予測をスケール間アテンションマップと1x1融合を用いて適応的に融合することで、迅速でほぼリアルタイムの性能と高い精度を実現する。
Because of the powerful learning capability of deep neural networks, counting performance via density map estimation has improved significantly during the past several years. However, it is still very challenging due to severe occlusion, large scale variations, and perspective distortion. Scale variations (from image to image) coupled with perspective distortion (within one image) result in huge scale changes of the object size. Earlier methods based on convolutional neural networks (CNN) typically did not handle this scale variation explicitly, until Hydra-CNN and MCNN. MCNN uses three columns, each with different filter sizes, to extract features at different scales. In this paper, in contrast to using filters of different sizes, we utilize an image pyramid to deal with scale variations. It is more effective and efficient to resize the input fed into the network, as compared to using larger filter sizes. Secondly, we adaptively fuse the predictions from different scales (using adaptively changing per-pixel weights), which makes our method adapt to scale changes within an image. The adaptive fusing is achieved by generating an across-scale attention map, which softly selects a suitable scale for each pixel, followed by a 1x1 convolution. Extensive experiments on three popular datasets show very compelling results.
研究の動機と目的
- 画像内の大きなスケール変動と視点の歪みに対処するための群衆カウント。
- スケール別密度マップを生成するための、画像ピラミッドベースのFCNバックボーンを提案する。
- ピクセルごとに適切なスケールを選択するための、 across-scale アテンションを用いた適応融合機構を開発する。
- リアルタイムまたはリアルタイムを超える推論で、最先端または競合的な性能を示す。
- 有効性を検証するために ShanghaiTech、WorldExpo、UCSD データセットで評価する。
提案手法
- 入力画像を複数のスケールへダウンサンプリングして画像ピラミッドを構築する。
- 各スケールを共有バックボーンFCNで処理して密度マップを生成する。
- スケール固有ブランチの最終特徴マップからスケール間アテンションマップを生成する。
- スケール間ソフトマックスを適用してピクセルごとのスケール重みを得て、対応する密度マップと乗算する。
- すべてのスケールからの補正密度マップを1x1畳み込みで融合して最終密度マップを得る。
- 128x128の入力から抽出した32x32の密度パッチに対してピクセルごとのMSE損失でエンドツーエンドに訓練する。
実験結果
リサーチクエスチョン
- RQ1単一画像内で異なる物体サイズと視点の変化がある場合でも、ピクセルごとの適応的スケール融合を用いた画像ピラミッドは群衆カウントを改善できるか。
- RQ2アテンション案内融合は、多尺度密度マップに対する固定または単純な融合戦略を上回るか。
- RQ3限られたダウンサンプリングを伴う提案FCNバックボーンは、density mapの品質と実行時間にどう影響するか。
- RQ4標準データセット上で、既存のマルチスケールカウント手法と比較して本手法の性能はどうか。
主な発見
- 適応型画像ピラミッド融合は、ShanghaiTech Part A/B、WorldExpo、UCSDで単一スケールのFCNベースラインを上回る。
- FCN-7c-3s(3スケール融合)は ShanghaiTech Part Aで MAE 80.6 RMSE 126.7、Part Bで MAE 10.2 RMSE 18.3 を達成。
- 2つのスケールを用いた手法(FCN-7c-2s)は Part Aで MAE 81.3 RMSE 132.6、Part Bで MAE 10.9 RMSE 19.1 を達成。
- CNN-patch、MCNN、Switch-CNN、CP-CNNと比較して、我々のFCN-7c-3sは競争力のあるMAE/MSEを示しつつ、高解像度画像でリアルタイムを超える推論を提供する。
- アテンションに基づく融合(スケール間ソフトマックス)は重要で、ソフトマックスを用いない場合や固定融合の場合は性能が劣る。
- 我々の手法は設定に応じて158-439 fpsで動作し、速度と精度のバランスに有利性を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。