QUICK REVIEW

[論文レビュー] DAVE: A Deep Audio-Visual Embedding for Dynamic Saliency Prediction

Hamed R. Tavakoli, Ali Borji|arXiv (Cornell University)|May 25, 2019

Visual Attention and Saliency Detection参考文献 64被引用数 28

ひとこと要約

本論文では、動的サリエンシー予測のためのシンプルでありながら効果的な深層音声・視覚埋め込みモデル DAVE を提案する。視覚的および聴覚的ヒントを統合的に活用することで、新たに構築された音声・視覚眼動測定コーパス（AVE）で訓練されたモデルは、音声情報がサリエンシー予測を顕著に向上させることを示している。視覚のみのベースラインを上回る性能を示し、53.54% のフレームで優れた結果を達成しており、特に視覚的に確認できる音源付近の人の注視パターンと密接に一致している。

ABSTRACT

This paper studies audio-visual deep saliency prediction. It introduces a conceptually simple and effective Deep Audio-Visual Embedding for dynamic saliency prediction dubbed ``DAVE" in conjunction with our efforts towards building an Audio-Visual Eye-tracking corpus named ``AVE". Despite existing a strong relation between auditory and visual cues for guiding gaze during perception, video saliency models only consider visual cues and neglect the auditory information that is ubiquitous in dynamic scenes. Here, we investigate the applicability of audio cues in conjunction with visual ones in predicting saliency maps using deep neural networks. To this end, the proposed model is intentionally designed to be simple. Two baseline models are developed on the same architecture which consists of an encoder-decoder. The encoder projects the input into a feature space followed by a decoder that infers saliency. We conduct an extensive analysis on different modalities and various aspects of multi-model dynamic saliency prediction. Our results suggest that (1) audio is a strong contributing cue for saliency prediction, (2) salient visible sound-source is the natural cause of the superiority of our Audio-Visual model, (3) richer feature representations for the input space leads to more powerful predictions even in absence of more sophisticated saliency decoders, and (4) Audio-Visual model improves over 53.54\% of the frames predicted by the best Visual model (our baseline). Our endeavour demonstrates that audio is an important cue that boosts dynamic video saliency prediction and helps models to approach human performance. The code is available at https://github.com/hrtavakoli/DAVE

研究の動機と目的

既存の動画サリエンシー予測モデルが視覚的ヒントに依存している一方で、音声の統合が不足しているという問題に対処すること。
深層音声・視覚サリエンシー予測モデルの学習および評価を目的とした大規模かつマルチソースの音声・視覚眼動測定データベース（AVE）を構築すること。
制御されたアブレーションおよびモダリティ分析を通じて、動的動画シーンにおける音声がサリエンシーのヒントとして果たす貢献度を調査すること。
視覚、音声、音声・視覚モダリティの間で公平な比較が可能な、シンプルでエンド・トゥ・エンドで学習可能な深層ニューラルネットワークアーキテクチャを開発すること。
より洗練された入力表現（例：3D CNN特徴）が、デコーダーの複雑さに依存せずにサリエンシー予測を向上させるかどうかを評価すること。

提案手法

視覚、音声、音声・視覚の各モデルで共通の構成要素を有するシンプルなエンコーダ・デコーダアーキテクチャを提案し、公平な比較を実現する。
大規模な動画データセットで事前学習された3次元畳み込みニューラルネットワーク（3D CNN）を用いて、動画入力からの高次元の空間時間的特徴を抽出する。
生の音声波形から時間的音声特徴を抽出するために1次元畳み込みニューラルネットワーク（1D CNN）を適用し、視覚特徴と統合して処理可能にする。
視覚的および音声的特徴をネットワークの初期段階で統合し、共通のデコーダーヘッドを通じてサリエンシー地図を予測する。
自由視聴条件下で収集された人間の眼動測定データの真値注視マップを用いて、モデルをエンド・トゥ・エンドで訓練する。
自然風景、インタビュー、スポーツの3つの動画カテゴリを対象に、モダリティの貢献度を各刺激タイプごとに分析するためのアブレーションスタディを実施する。

実験結果

リサーチクエスチョン

RQ1視覚のみのモデルと比較して、音声情報が動的動画サリエンシー予測を顕著に改善するか？
RQ2視覚的に確認できる音源が存在する場合、音声・視覚サリエンシー予測モデルの性能にどのような影響を与えるか？
RQ3より洗練された入力レベルの特徴（例：大規模な動画データセットで事前学習された3D CNN）は、デコーダーの複雑さに依存せずにサリエンシー予測を向上させるか？
RQ4人間の注視パターン予測精度の観点から、音声・視覚モデルは既存の動画専用サリエンシー予測モデルを上回るか？
RQ5モデルの挙動は、特に音源の位置に注視を向けるという点で、人間の注意パターンと一致するか？

主な発見

音声は動的サリエンシー予測において強力で顕著な貢献要因であり、音声・視覚モデルは視覚のみのベースラインを53.54% のフレームで上回る。
音声・視覚モデルは、すべての評価指標およびすべての動画カテゴリで優れた性能を示し、ベースラインより一貫した向上を達成している。
モデルの注視は、視覚的に確認できる音源付近で人間の注視と密接に一致しており、音声が注視の空間的位置を適切に局所化するのを支援していることが示された。
より洗練された入力レベルの特徴（例：大規模な動画データセットで事前学習された3D CNN）は、デコーダーの構造が単純であっても、サリエンシー予測を向上させる。
音声・視覚モデルは、活発な音源の位置における注視予測において、視覚のみのモデルを顕著に上回り、音声が注意を誘導する役割を果たしていることを確認した。
モデルの性能は異なる動画タイプにわたり一貫しており、音声の貢献度は視覚的に明確な音源が存在するシーンで最も顕著に現れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。