Skip to main content
QUICK REVIEW

[论文解读] Learning to Set Waypoints for Audio-Visual Navigation

Changan Chen, Sagnik Majumder|arXiv (Cornell University)|Aug 21, 2020
Robotics and Sensor-Based Localization参考文献 49被引用 28
一句话总结

该论文提出了一种用于视听导航的强化学习框架,能够端到端地学习动态、视听导向的路标点,从而提升在未见过的3D环境中的导航效率。通过将结构化声学记忆与视觉感知相结合,该模型在Replica和Matterport3D数据集上实现了最先进性能,在干净和嘈杂的音频条件下均显著优于先前方法。

ABSTRACT

In audio-visual navigation, an agent intelligently travels through a complex, unmapped 3D environment using both sights and sounds to find a sound source (e.g., a phone ringing in another room). Existing models learn to act at a fixed granularity of agent motion and rely on simple recurrent aggregations of the audio observations. We introduce a reinforcement learning approach to audio-visual navigation with two key novel elements: 1) waypoints that are dynamically set and learned end-to-end within the navigation policy, and 2) an acoustic memory that provides a structured, spatially grounded record of what the agent has heard as it moves. Both new ideas capitalize on the synergy of audio and visual data for revealing the geometry of an unmapped space. We demonstrate our approach on two challenging datasets of real-world 3D scenes, Replica and Matterport3D. Our model improves the state of the art by a substantial margin, and our experiments reveal that learning the links between sights, sounds, and space is essential for audio-visual navigation. Project: http://vision.cs.utexas.edu/projects/audio_visual_waypoints.

研究动机与目标

  • 通过学习非短视的动态路标点而非固定动作策略,提升在非结构化3D环境中的视听导航性能。
  • 解决现有方法依赖固定动作粒度或启发式子目标选择的局限性。
  • 通过引入结构化、空间定位的声学记忆,提升对音频噪声和复杂声学环境的鲁棒性。
  • 证明联合学习音频、视觉与空间关系对于有效导航至关重要。

提出的方法

  • 该模型采用分层强化学习框架,外层策略用于预测视听路标点,内层规划器则负责导航至每个路标点。
  • 提出一种新型结构化声学记忆 $A_t$,可随时间记录并整合音频观测,提供可解释的、空间定位的声学证据。
  • 通过多模态编码器联合编码视听输入,以支持路标点选择与导航规划。
  • 该智能体从视觉观测构建几何地图,从音频输入构建声学地图,从而实现基于声音传播特性的环境几何推断。
  • 通过课程学习和基于课程的探索策略,采用端到端强化学习进行策略训练。
  • 路标点选择具有自适应性:当智能体远离目标时选择更远的路标点,接近目标时则选择更近的路标点。

实验结果

研究问题

  • RQ1强化学习智能体能否学习设置动态的、非短视的路标点,从而提升视听导航的效率?
  • RQ2与无结构的音频聚合相比,结构化声学记忆在视听导航中如何提升性能?
  • RQ3音频与视觉模态之间的协同作用在多大程度上提升了对未测绘3D空间的几何理解?
  • RQ4在真实环境中,该方法对音频噪声和干扰声音的鲁棒性如何?
  • RQ5端到端学习路标点选择是否优于基于启发式或原始动作的基线方法?

主要发现

  • 所提出的AV-WaN模型在噪声条件下于Replica数据集上达到83.1%的SPL,在Matterport3D数据集上达到70.9%的SPL,显著优于先前最先进方法。
  • 移除结构化声学记忆 ($A_t$) 后,Replica数据集性能下降12.4%,Matterport3D数据集性能下降15.6%,证明其关键作用。
  • 该模型对麦克风噪声具有鲁棒性,在高斯噪声增加时仍能保持高精度,而先前方法则表现下降。
  • 路标点选择具有自适应性:随着智能体接近目标,平均路标点距离逐渐减小,且多数路标点位于门框和障碍物附近。
  • 消融实验表明,即使使用相同组件,端到端学习路标点也比使用线性动作头的原始动作策略更有效。
  • 失败案例揭示了在角落或高度反射环境中定位目标的挑战,声学反射和建图误差会导致振荡或过早停止。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。