QUICK REVIEW

[論文レビュー] SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

Yingjian Zhu, Ying Wang|arXiv (Cornell University)|Mar 2, 2026

Music and Audio Processing被引用数 0

ひとこと要約

SeaVIS は、音声履歴を現在の視覚フレームと因果的クロスアテンションで融合し、音声ガイド付きコントラスト学習を用いてリアルタイムでの sound-aware なインスタンス結合を改善するオンライン音響-視覚インスタンス分割フレームワークを導入する。AVISeg で最先端の結果をリアルタイム速度で達成する。

ABSTRACT

Recently, an audio-visual instance segmentation (AVIS) task has been introduced, aiming to identify, segment and track individual sounding instances in videos. However, prevailing methods primarily adopt the offline paradigm, that cannot associate detected instances across consecutive clips, making them unsuitable for real-world scenarios that involve continuous video streams. To address this limitation, we introduce SeaVIS, the first online framework designed for audio-visual instance segmentation. SeaVIS leverages the Causal Cross Attention Fusion (CCAF) module to enable efficient online processing, which integrates visual features from the current frame with the entire audio history under strict causal constraints. A major challenge for conventional VIS methods is that appearance-based instance association fails to distinguish between an object's sounding and silent states, resulting in the incorrect segmentation of silent objects. To tackle this, we employ an Audio-Guided Contrastive Learning (AGCL) strategy to generate instance prototypes that encode not only visual appearance but also sounding activity. In this way, instances preserved during per-frame prediction that do not emit sound can be effectively suppressed during instance association process, thereby significantly enhancing the audio-following capability of SeaVIS. Extensive experiments conducted on the AVISeg dataset demonstrate that SeaVIS surpasses existing state-of-the-art models across multiple evaluation metrics while maintaining a competitive inference speed suitable for real-time processing.

研究の動機と目的

streaming video におけるフレームごとのオンライン AVIS による連続的なインスタンス結合を可能にする。
カオス制約の下で全音声履歴を利用したフュージョン機構をオンライン処理のために開発する。
視覚的外観と発声状態の両方をエンコードするインスタンス埋め込みを学習し、静かな物体を抑制する。
フレームレベルとインスタンスレベルのコントラスト学習を導入して、音声を考慮したインスタンス識別を改善する。
AVISeg ベンチマークでベースラインに対して実-time 性能と高精度を実現する。

提案手法

Causal Cross Attention Fusion (CCAF) モジュールを提案し、現在フレームの視覚特徴を因果マスクの下で音声履歴全体と融合させる。
音声特徴を視覚埋め込み次元に投影し、マルチスケール視覚特徴を横断するクロスアテンションで融合する。
学習可能なクエリを用いるTransformer ベースのデコーダを用いて各フレームの分割を行い、その後MLPでインスタンス埋め込みを生成する。
Audio-Guided Contrastive Learning (AGCL) をフレームレベルとインスタンスレベルの両方で導入し、音響活性を埋め込みにエンコードする。
フレームレベルとインスタンスレベルの InfoNCE 風対照学習損失を適用して、 sounding と non-sounding のインスタンスを分離し、フレーム間で音声を考慮した追跡を維持する。
埋め込みと AGCL 損失を含む標準的なフレームレベル分割損失と組み合わせたジョイント損失で訓練し、推論はモメンタム埋め込みを用いたメモリベースのトacker でフレーム間を関連付ける。

実験結果

リサーチクエスチョン

RQ1オンラインの AVIS は因果制約の下で音声履歴と現在の視覚入力をどのように効果的に融合できるか？
RQ2 インスタンス埋め込みを発声状態に敏感にして、結合中に sounding と silent objects を区別できるか？
RQ3 AGCL は追跡中の silent インスタンスを抑制することでオンライン AVIS の頑健性を向上させるか？
RQ4 オンライン CCAF と AGCL が AVISeg の性能とリアルタイム推論速度に与える影響はどの程度か？

主な発見

SeaVIS は FSLA、HOTA、mAP 指標で AVISeg の最先端結果を達成。
CCAF はオンライン制約の下で音声の時系列コンテキストをマルチスケール視覚特徴に効果的に統合し、分割精度を向上。
AGCL はフレームレベルの指標（特に FSLA）を大きく向上させ、埋め込みに発声をエンコードすることでフレーム間のインスタンス結合を強化。
SeaVIS は競争力のあるリアルタイム性能を提供し、精度で従来のオンライン手法を上回りつつ実用的な FPS を維持。
ResNet-50 での AVISeg ベンチマークでは SeaVIS が 47.09 FSLA、66.47 HOTA、46.28 mAP、34.65 FPS を達成； Swin-L バックボーンでは 54.65 FSLA、73.85 HOTA、54.29 mAP、19.39 FPS。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。