[論文レビュー] Audio-Visual Segmentation with Semantics
ペア音響視覚セグメンテーション(AVS)を定義し、バイナリおよびセマンティックマスクを備えたAVSBenchを導入し、音響セマンティクスをピクセル単位の視覚特徴と融合させるTPAVIベースのベースラインを提案して、 マルチモーダルセグメンテーションとセマンティクスに適用します。
We propose a new problem called audio-visual segmentation (AVS), in which the goal is to output a pixel-level map of the object(s) that produce sound at the time of the image frame. To facilitate this research, we construct the first audio-visual segmentation benchmark, i.e., AVSBench, providing pixel-wise annotations for sounding objects in audible videos. It contains three subsets: AVSBench-object (Single-source subset, Multi-sources subset) and AVSBench-semantic (Semantic-labels subset). Accordingly, three settings are studied: 1) semi-supervised audio-visual segmentation with a single sound source; 2) fully-supervised audio-visual segmentation with multiple sound sources, and 3) fully-supervised audio-visual semantic segmentation. The first two settings need to generate binary masks of sounding objects indicating pixels corresponding to the audio, while the third setting further requires generating semantic maps indicating the object category. To deal with these problems, we propose a new baseline method that uses a temporal pixel-wise audio-visual interaction module to inject audio semantics as guidance for the visual segmentation process. We also design a regularization loss to encourage audio-visual mapping during training. Quantitative and qualitative experiments on AVSBench compare our approach to several existing methods for related tasks, demonstrating that the proposed method is promising for building a bridge between the audio and pixel-wise visual semantics. Code is available at https://github.com/OpenNLPLab/AVSBench. Online benchmark is available at http://www.avlbench.opennlplab.cn.
研究の動機と目的
- 音声信号をサウンドを発する視覚オブジェクトへリンクさせるピクセルレベルのタスクを動機づける。
- 複数の設定を持つ最初のピクセルレベル音響視覚セグメンテーションベンチマークとしてAVSBenchを作成する。
- TPAVIを介して音響セマンティクスを視覚セグメンテーションへ注入するベースライン手法を提案する。
- 訓練時のロバストな音響視覚マッピングを促進する正則化損失を提供する。
- 音響視覚セマンティックセグメンテーションを検討するためのセマンティックラベルを含む拡張ベンチマークを提供する。
提案手法
- ビデオフレームと全オーディオクリップを処理するエンコーダ-デコーダアーキテクチャを使用する。
- CNNまたはビジョン・トランスフォーマーをバックボーンとして視覚特徴を抽出し、ASPPで後処理する。
- 視覚特徴と音響特徴を時間的・空間的に統合するために音響視覚類似性を用いて TPAVI を導入する。
- セグメンテーションにはバイナリクロスエントロピー損失を用い、音響マスク視覚特徴をKLダイバージェンスに基づく AVM 正則化項で整合させる。
- セミ監視の単一ソースAVS(S4)、完全監視の多源AVS(MS3)、完全監視の音響視覚セマンティブセグメンテーション(AVSS)の3つの設定にモデルを適用する。
- 任意でPanoptic-FPN風デコーダを用いてピクセルレベルのマスク(AVSSではセマンティックマップ)を生成する。
実験結果
リサーチクエスチョン
- RQ1ビデオフレーム内で音を発生させる正確なピクセルをピクセルレベルのセグメンテーションで特定できるか?
- RQ2マルチモーダルTPAVI融合は単一・複数の音源に対するセグメンテーション精度を改善するか?
- RQ3異なる監視設定の下で音響視覚セマンティックガイダンスがセグメンテーション性能にどう影響するか?
- RQ4 sounding objects のセマンティックカテゴリマップを生成するようにアプローチを拡張できるか?
主な発見
- AVSベースラインとTPAVIはS4およびMS3設定でSSL、VOS、およびSODアプローチと比して競争力のある性能を示す。
- 音響視覚のガイダンスは視覚的手掛かりだけに依存する方法と比べてピクセルレベルのセグメンテーションを著しく改善し、特にマルチソースの状況で顕著である。
- AVSBench-object拡張はバイナリ( sounding pixels )マスクをサポートし、AVSBench-semantic は70カテゴリのピクセルレベルセマンティックマスクを提供してAVSSを可能にする。
- AVSベースラインは半教師ありのS4設定で約70%の mIoU を達成し、完全監視のMS3設定で良好に一般化し、トランスフォーマー系バックボーンはさらに性能を向上させる。
- LGVT(Swin Transformerバックボーンを用いた強力なSOD法)は単一ソースのケースでResNet-50ベースラインをわずかに上回るが、AVSアプローチはマルチソースケースで上回り、トランスフォーマーベースのバックボーンは全体の結果を強化する。
- オンラインのAVSベンチマークとコードが提供され、ピクセルレベルの音響視覚学習の継続的な研究を支援する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。