QUICK REVIEW

[論文レビュー] Audio-Visual Event Localization in Unconstrained Videos

Yapeng Tian, Jing Shi|arXiv (Cornell University)|Mar 23, 2018

Music and Audio Processing参考文献 4被引用数 28

ひとこと要約

本稿は、制約のない動画における新しい音声視覚イベント局所化フレームワークを提案し、新規データセットと3つのタスク（教師あり、弱教師あり、クロスモodal局所化）を導入している。音声に従う視覚的注意メカニズム、特徴統合のための二重マルチモーダル残差ネットワーク（DMRN）、音声視覚距離学習ネットワークを採用し、強力な音声視覚相関関係と時間的整合性を活用することで、最先端の性能を達成している。

ABSTRACT

In this paper, we introduce a novel problem of audio-visual event localization in unconstrained videos. We define an audio-visual event as an event that is both visible and audible in a video segment. We collect an Audio-Visual Event(AVE) dataset to systemically investigate three temporal localization tasks: supervised and weakly-supervised audio-visual event localization, and cross-modality localization. We develop an audio-guided visual attention mechanism to explore audio-visual correlations, propose a dual multimodal residual network (DMRN) to fuse information over the two modalities, and introduce an audio-visual distance learning network to handle the cross-modality localization. Our experiments support the following findings: joint modeling of auditory and visual modalities outperforms independent modeling, the learned attention can capture semantics of sounding objects, temporal alignment is important for audio-visual fusion, the proposed DMRN is effective in fusing audio-visual features, and strong correlations between the two modalities enable cross-modality localization.

研究の動機と目的

制約のない動画における時間的局所化のための共同音声視覚モデリングを検討すること。ここで、イベントは視覚的および聴覚的に両方認識可能である。
音声および視覚モダリティが効果的に統合され、局所化の正確性が向上する方法を調査すること。
弱教師ありおよびゼロショット設定における音声に従う視覚的注意とクロスモダリティ局所化の利点を探索すること。
新たに収集された4,143本の制約のない動画からなる大規模データセットを用いて、音声視覚イベント局所化のベンチマークを確立すること。

提案手法

音声に従う視覚的注意メカニズムを提案し、音を発する物体に対応する視覚的領域を適応的に強調することで、特徴の関連性を向上させている。
残差学習を用いて音声および視覚特徴を統合する二重マルチモーダル残差ネットワーク（DMRN）を導入し、表現学習を強化している。
コントラスト損失に基づく音声視覚距離学習ネットワークを採用し、音声および視覚特徴を共有部分空間に射影することで、クロスモダリティマッチングを実現している。
C3Dネットワークを用いてスパatiotemporal視覚特徴を抽出し、事前学習済みのVGG型モデルを音声スペトグラム埋め込みに用い、シーケンスレベルの表現を得るためにグローバル平均プーリングを適用している。
弱教師あり局所化に対応するため、複数インスタンス学習（MIL）をプーリング層と組み合わせて適応している。ここで、動画レベルのラベルのみが利用可能である。
ロジメルスペクトログ램パッチおよび事前学習済み音声モデルの最終全結合層からの128次元音声特徴を用いて、頑健な音声表現を実現している。

実験結果

リサーチクエスチョン

RQ1音声および視覚モダリティの共同モデリングは、独立したモデリングよりも音声視覚イベント局所化で優れた性能を示すか？
RQ2ノイズ混在または弱教師あり学習条件下での性能低下はどの程度か？
RQ3注目メカニズムを介して、あるモダリティ（例：音声）の知識が、他のモダリティ（例：視覚）のモデリングを向上させられるか？
RQ4時間的局所化のための音声および視覚特徴を統合する最適な方法は何か？
RQ5学習済み表現を用いて、音声から視覚的イベントを、または逆に視覚から音声的イベントを局所化できるか（クロスモダリティ局所化）？

主な発見

音声および視覚モダリティの共同モデリングは、独立したモデリングを著しく上回り、A′+V統合を用いた教師ありタスクで70.2%の精度を達成した。
音声に従う視覚的注意メカニズムは、音を発する物体を含む意味的領域を効果的に局所化でき、音声視覚関連のない動画を区別する能力も示した。
時間的整合性は、効果的な音声視覚統合にとって不可欠であり、誤った同期の特徴は性能を低下させる。
提案された二重マルチモーダル残差ネットワーク（DMRN）は、比較された手法の中で最高の統合性能を達成し、マルチモーダル学習における有効性を示した。
音声および視覚モダリティ間の強い相関関係により、音声視覚距離学習ネットワークの成功が裏付けられ、効果的なクロスモダリティ局所化が可能となった。
音声および空間的視覚特徴（V_s）は、AVEデータセットにおいてC3Dに基づくスパティオトランスポート特徴を上回り、このタスクでは動きのモデリングよりも意味的コンテンツが重要であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。