QUICK REVIEW

[論文レビュー] Semantic Audio-Visual Navigation in Continuous Environments

Yichen Zeng, Hebaixu Wang|arXiv (Cornell University)|Mar 20, 2026

Music and Audio Processing被引用数 0

ひとこと要約

MAGNet は、記憶を拡張したマルチモーダル変換器で、連続的な3D環境において意味論的に grounded な音を発する目標へとヴィジョンとオーディオを組み合わせたエンボディッドエージェントを誘導し、無音期間中も目標を認識し続け、従来の手法を上回る。

ABSTRACT

Audio-visual navigation enables embodied agents to navigate toward sound-emitting targets by leveraging both auditory and visual cues. However, most existing approaches rely on precomputed room impulse responses (RIRs) for binaural audio rendering, restricting agents to discrete grid positions and leading to spatially discontinuous observations. To establish a more realistic setting, we introduce Semantic Audio-Visual Navigation in Continuous Environments (SAVN-CE), where agents can move freely in 3D spaces and perceive temporally and spatially coherent audio-visual streams. In this setting, targets may intermittently become silent or stop emitting sound entirely, causing agents to lose goal information. To tackle this challenge, we propose MAGNet, a multimodal transformer-based model that jointly encodes spatial and semantic goal representations and integrates historical context with self-motion cues to enable memory-augmented goal reasoning. Comprehensive experiments demonstrate that MAGNet significantly outperforms state-of-the-art methods, achieving up to a 12.1\% absolute improvement in success rate. These results also highlight its robustness to short-duration sounds and long-distance navigation scenarios. The code is available at https://github.com/yichenzeng24/SAVN-CE.

研究の動機と目的

エージェントが細かな動作で動く連続的な3D環境（SAVN-CE）へ意味論的オーディオビジュアルナビゲーションを拡張する。
聴覚信号が断続的または完全に停止した場合の堅牢な目標推論を可能にする。
記憶を拡張したマルチモーダル変換器（MAGNet）を開発し、音声・視覚・自己運動・エピソード記憶を統合して持続的な目標追跡を行う。
Matterport3DベースのデータセットでSAVN-CEを評価し、特に短い音や長距離ナビゲーションにおいて従来のAVN手法より改善を示す。
空間的・意味論的目標表現を同時に符号化し、長期的な計画のために履歴を活用する学習フレームワークを提供する。

提案手法

Matterport3Dシーン上でSoundSpaces 2.0を用いて連続した3D環境で時間的一貫性のあるバイノーラル音響をレンダリングし、SAVN-CEを導入する。
MAGNet は三つの要素からなる：(i) Multimodal Observation Encoder：音声・視覚・姿勢・行動を統合してシーンメモリへ、(ii) Memory-Augmented Goal Descriptor Network (GDN)：バイノラル手掛かり・自己運動・エピソード記憶を組み合わせて空間-意味的な目標表現を推定、(iii) Context-Aware Policy Network：メモリへ注意を向けて行動を予測。
音声はスペクトログラムベースの特徴とチャネル間手掛かりでエンコードし、目標の方向と距離を同時に推定。
長期のシーンメモリとエピソード記憶を維持し、無音期間中の時間的一貫性ある目標推論を支える。
二段階の訓練アプローチで学習：ACC DD OAラベルを用いた監督付きGDN更新と分散PPOによるナビゲーションポリシーの学習、報酬は目標へ効率的に到達することを重視。

実験結果

リサーチクエスチョン

RQ1連続環境で部分的な感覚観測から、エージェントは目標の空間的位置と意味カテゴリーを推定できるか。
RQ2目標音が断続的または無音のとき、記憶を拡張した目標推論はナビゲーションを改善するか。
RQ3MAGNet はクリーンな音響条件と妨害音が多い条件で従来のAVN手法と比べてどうか。
RQ4自己運動手掛かりとエピソード記憶は目標追跡と長期的なナビゲーションにどの程度寄与するか。
RQ5SAVN-CE のエンドツーエンド学習は未見の環境・音声でも頑健な性能を発揮するか。

主な発見

MAGNet はクリーン環境でベースラインに対して大幅な改善を達成し、成功関連指標で従来手法より高い成果を示す。
妨害音がある場合の性能は低下するが、MAGNet はベースラインより目標推論を促進する点で依然優位。
アブレーション研究により、記憶を拡張したGDNと自己運動手掛かりおよびエピソード記憶の統合が堅牢な性能とSEL D（音源定位・検出）能力にとって重要であることが示された。
オラクル変種は、目標音の持続時間と無音後の更新が達成可能な性能に大きく影響することを示し、持続的な目標表現の価値を強調する。
ビジュアル化は、履歴的文脈を活用することで目標認識を維持し、音が断続的または欠如している場合のナビゲーション効率を改善することを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。