Skip to main content
QUICK REVIEW

[論文レビュー] AV-Unified: A Unified Framework for Audio-visual Scene Understanding

Guangyao Li, Xin Wang|arXiv (Cornell University)|Mar 6, 2026
Speech and Audio Processing被引用数 0
ひとこと要約

AV-Unified は、入力/出力を統一し、タスク対応プロンプトを用いた多スケールの時空認識を取り入れることで、複数の音声視覚シーン理解タスクを共同学習する単一のシーケンスツーシーケンスモデルを提案します。

ABSTRACT

When humans perceive the world, they naturally integrate multiple audio-visual tasks within dynamic, real-world scenes. However, current works such as event localization, parsing, segmentation and question answering are mostly explored individually, making it challenging to comprehensively understand complex audio-visual scenes and explore inter-task relationships. Hence, we propose extbf{AV-Unified}, a unified framework that enables joint learning across a wide range of audio-visual scene understanding tasks. AV-Unified standardizes the diverse input-output formats of each task and incorporates a multi-scale spatiotemporal perception network to effectively capture audio-visual associations. Specifically, we unify the inputs and outputs of all supported tasks by converting them into sequences of discrete tokens, establishing a shared representation that allows a single architecture to be trained jointly across heterogeneous varied datasets. Considering the varying temporal granularity of audio-visual events, a multi-scale temporal perception module is designed to capture key cues. Meanwhile, to overcome the lack of auditory supervision in the visual domain, we design a cross-modal guidance-based spatial perception module that models spatial audio-visual associations. Furthermore, task-specific text prompts are employed to enhance the model's adaptability and task-awareness. Extensive experiments on benchmark datasets (e.g., AVE, LLP, MUSIC-AVQA, VGG-SS and AVS) demonstrate the effectiveness of AV-Unified across temporal, spatial, and spatiotemporal tasks.

研究の動機と目的

  • 多様な音声視覚タスク(時系列ローカライゼーション、空間ローカライゼーション、ピクセルレベルのセグメンテーション、時空間推論)を統一して学習する動機付け。
  • 共有パラメータでの共同訓練を可能にするため、異質なタスク入力/出力を共有シーケンス表現へ標準化。
  • varying scale のイベントを捉え、音声視覚の手掛りを整列するためのマルチスケール時空間認識の開発。
  • タスク別プロンプトを取り入れ、タスク適応性と性能を向上。

提案手法

  • すべてのタスクの入力/出力を共有表現を持つシーケンスツーシーケンス形式へ変換。
  • 複数の時系列スケールと空間コンテキストで音声視覚の関連を捉えるマルチスケール時空間認識モデル(MS-STPM)を採用。
  • 双方向のクロスモーダル注意により堅牢な音声視覚空間アライメントを学習するクロスモーダル・ガイダンスベースの空間認識モジュール(SPM)を使用。
  • タスク固有のテキストプロンプトを用いて特徴選択をタスク関連の手がかりへ誘導するタスクプロンプト指向学習モジュール(TPGL)を組み込む。
  • 個別タスクからのバッチをサンプリングする多タスク目的で訓練し、破局的忘却を緩和しつつ、タスク間で共有表現を活用。
Figure 1: AV-Unified is a single sequence-to-sequence model that performs a variety of audio-visual tasks using a unified architecture without a need for either task or modality specific branches. A schematic of the model with multiple demonstrative audio-visual tasks: event localization, video pars
Figure 1: AV-Unified is a single sequence-to-sequence model that performs a variety of audio-visual tasks using a unified architecture without a need for either task or modality specific branches. A schematic of the model with multiple demonstrative audio-visual tasks: event localization, video pars

実験結果

リサーチクエスチョン

  • RQ1単一モデルが入力/出力を統一し、パラメータを共有することで、時系列ローカライゼーション、空間ローカライゼーション、セグメンテーション、質問応答を同時に行えるか。
  • RQ2マルチスケール時刻認識とクロスモーダル空間ガイダンスは、さまざまなタスクにわたる音声視覚理解をどの程度改善するか。
  • RQ3タスク特化のプロンプトは、統一フレームワーク内でタスク関連表現へモデルを効果的に誘導できるか。
  • RQ4複雑なAVシーンに対する共通訓練と単一タスク訓練の利点・制約は何か。

主な発見

  • AV-Unified フレームワークは、時系列・空間・時空間タスクでベンチマークデータセット上の有効性を示す。
  • 共通訓練は、特にカウント、ローカライゼーション、比較、および時相要素においてAVQAの高度な推論タスクの性能を向上させる。
  • 一部の単一モーダルまたは簡易タスクでは、共同訓練時に性能がわずかに犠牲になる可能性があり、多タスク学習のダイナミクスの最適化余地を示唆。
  • 入力/出力をシーケンス形式へ統合し、MS-STPM、SPM、TPGL で音声視覚相関をモデル化することで、タスク固有ブランチなしに多様なタスクをサポート。
  • 実験は AVE、LLP、MUSIC-AVQA、VGG-SS、AVS に及び、音声視覚理解の課題全体への適応性を検証。
Figure 2: The proposed Multi-scale Temporal-Spatial Perception Framework. First, the visual and audio features extracted by the encoder are fed into a temporal perception module to capture key audio-visual temporal cues. Then, a spatial perception module performs cross-modal guidance and interaction
Figure 2: The proposed Multi-scale Temporal-Spatial Perception Framework. First, the visual and audio features extracted by the encoder are fed into a temporal perception module to capture key audio-visual temporal cues. Then, a spatial perception module performs cross-modal guidance and interaction

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。