QUICK REVIEW

[论文解读] Semantic Audio-Visual Navigation in Continuous Environments

Yichen Zeng, Hebaixu Wang|arXiv (Cornell University)|Mar 20, 2026

Music and Audio Processing被引用 0

一句话总结

MAGNet，一种结合记忆的多模态变换器，使具备视觉与音频感知的实体代理能够在连续的三维环境中导航到语义上有根基的发出声音的目标，并在静默期保持目标感知，且优于以往方法。

ABSTRACT

Audio-visual navigation enables embodied agents to navigate toward sound-emitting targets by leveraging both auditory and visual cues. However, most existing approaches rely on precomputed room impulse responses (RIRs) for binaural audio rendering, restricting agents to discrete grid positions and leading to spatially discontinuous observations. To establish a more realistic setting, we introduce Semantic Audio-Visual Navigation in Continuous Environments (SAVN-CE), where agents can move freely in 3D spaces and perceive temporally and spatially coherent audio-visual streams. In this setting, targets may intermittently become silent or stop emitting sound entirely, causing agents to lose goal information. To tackle this challenge, we propose MAGNet, a multimodal transformer-based model that jointly encodes spatial and semantic goal representations and integrates historical context with self-motion cues to enable memory-augmented goal reasoning. Comprehensive experiments demonstrate that MAGNet significantly outperforms state-of-the-art methods, achieving up to a 12.1\% absolute improvement in success rate. These results also highlight its robustness to short-duration sounds and long-distance navigation scenarios. The code is available at https://github.com/yichenzeng24/SAVN-CE.

研究动机与目标

将语义音视频导航扩展到代理以细粒度行动在连续三维环境中移动的 SAVN-CE（Semantic Audio-Visual Navigation in Continuous Environments）。
在听觉信号间歇或完全停止时实现鲁棒的目标推理。
开发一个记忆增强的多模态变换器（MAGNet），将音频、视觉、自我运动和情节记忆融合以实现持续的目标跟踪。
在基于 Matterport3D 的数据集上评估 SAVN-CE，并展示相较于现有 AVN 方法的改进，尤其在短声音和长距离导航方面。
提供一个学习框架，联合编码空间和语义目标表征，并利用历史信息进行长时域规划。

提出的方法

通过在 Matterport3D 场景上使用 SoundSpaces 2.0 渲染时序一致的双耳音频，在连续三维环境中实现 SAVN-CE。
提出 MAGNet 的三大组成部分：（i）多模态观测编码器，将音频、视觉、姿态和动作融合到场景记忆中；（ii）记忆增强的目标描述网络（GDN），将双耳线索、自我运动和情节记忆结合以推断空间-语义目标表征；（iii）情境感知策略网络，对记忆进行关注以预测动作。
用基于光谱的音频特征和声道间线索进行编码，以联合估计目标方向和距离。
维持长期场景记忆和情节记忆，以在静默期支持时序一致的目标推理。
两阶段训练：有监督的 GDN 更新使用 ACCDDOA 标签，以及去中心化的 PPO 用于导航策略，奖励结构鼓励高效地到达目标。

实验结果

研究问题

RQ1代理能否在连续环境中从部分感知中推断目标的空间位置和语义类别？
RQ2当目标声音间歇或静默时，记忆增强的目标推理是否能改善导航？
RQ3在干净与有干扰声源的听觉条件下，MAGNet 与现有 AVN 方法相比如何？
RQ4自我运动线索和情节记忆对目标跟踪与长时域导航的贡献是什么？
RQ5对 SAVN-CE 的端到端训练是否在未见环境与声音上表现稳健？

主要发现

MAGNet 在清洁环境下对基线方法有显著改进，成功相关指标提升显著高于以往方法。
在干扰条件下性能下降，但 MAGNet 仍展现出相较基线在促进目标推理方面的优势。
消融研究表明，记忆增强的 GDN 以及自我运动线索和情节记忆的整合对稳健性能和 SELD（声音事件定位与检测）能力至关重要。
Oracle 变体表明目标声音的持续时间与静默后的更新显著影响可达到的性能，凸显持续目标表示的价值。
可视化结果显示，利用历史上下文有助于维持目标感知并在声音间歇或缺失时提高导航效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。