[論文レビュー] Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions
この論文は音響と視覚の crowd counting を導入し、大規模な DISCO ベンチマークを提示する。環境音が低照度、ノイズ、遮蔽、低解像度の下で crowd counting を改善することを示す。
Visual crowd counting has been recently studied as a way to enable people counting in crowd scenes from images. Albeit successful, vision-based crowd counting approaches could fail to capture informative features in extreme conditions, e.g., imaging at night and occlusion. In this work, we introduce a novel task of audiovisual crowd counting, in which visual and auditory information are integrated for counting purposes. We collect a large-scale benchmark, named auDiovISual Crowd cOunting (DISCO) dataset, consisting of 1,935 images and the corresponding audio clips, and 170,270 annotated instances. In order to fuse the two modalities, we make use of a linear feature-wise fusion module that carries out an affine transformation on visual and auditory features. Finally, we conduct extensive experiments using the proposed dataset and approach. Experimental results show that introducing auditory information can benefit crowd counting under different illumination, noise, and occlusion conditions. The dataset and code will be released. Code and data have been made available
研究の動機と目的
- 人間の多感覚知覚に触発された新しい視聴覚 crowd counting タスクを動機づける。
- 1,935 の画像-音声クリップと 170,270 の注釈付き頭部インスタンスを含む大規模 DISCO データセットを作成する。
- Ambient soundを活用してカウントする特徴ごとの融合を備えた視聴覚カウントモデルを開発する。
- 照度、ノイズ、遮蔽、解像度条件にわたって音声手掛かりがカウントに与える影響を評価する。
提案手法
- 視覚特徴抽出器として VGG16 の最初の十層を用いる。
- 音声を Log Mel-Spectrograms と 6 層 CNN(VGGish由来)で表現する。
- 音響と視覚特徴を、平均プーリングと全結合層を介して音声から派生したアフィントランスフォーメーションのガンマとベータパラメータを出力する線形の特徴ごとの融合ブロックを用いて融合する。
- 受容野を拡大しフル解像度の密度マップを生成するため、拡張畳み込みを用いた複数の融合ブロック(6 ブロック)を積み重ねる。
- 予測密度マップと真の密度マップの間の L2 損失で訓練する。
- MAE と MSE を用いて AudioCSRNet を視覚のみのベースライン(MCNN、CSRNet、SANet、CANNet)と比較する。
実験結果
リサーチクエスチョン
- RQ1極端な条件下で視覚と聴覚の特徴を組み合わせることは、視覚のみのモデルよりも crowd counting を改善するか。
- RQ2照度、ノイズ、遮蔽の異なる条件下で音響情報を含むカウントの結果はどのように変化するか。
- RQ3視覚と聴覚の手掛かりに対する効果的で計算効率の高い融合機構は何か。
主な発見
- 音声を補助したモデルは、低品質の画像(低照度、ノイズ、遮蔽、低解像度)で一貫して視覚のみのベースラインを上回る。
- AudioCSRNet は困難な条件下で CSRNet より低い MAE と MSE を達成し、画質の高い画像でも競争力を保つ。
- 視覚情報が欠如している、または著しく劣化している場合でも音声情報がカウントを可能にする(照度実験で R=0 など)。
- 結合された視聴覚モデルは、照度と遮蔽レベルの変動に対して頑健で、視覚品質が劣化するほど性能差が大きくなる。
- CNNベースの音声表現(スペrogramベース)の方が MFCC+LSTM より良い結果を生む; AudioCANNet は低品質レジームで CANNet の利益にもつながる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。