QUICK REVIEW

[논문 리뷰] Semantic Audio-Visual Navigation in Continuous Environments

Yichen Zeng, Hebaixu Wang|arXiv (Cornell University)|2026. 03. 20.

Music and Audio Processing인용 수 0

한 줄 요약

MAGNet, 메모리 보강 다중 모달 트랜스포머는 연속 3D 환경에서 시맨틱으로 근거 있는 소리 발생 목표를 향해 가상·오디오를 결합한 에이전트를 탐색하게 하되, 무음 기간 동안도 목표 인식을 유지하고 이전 방법들보다 우수하게 동작합니다.

ABSTRACT

Audio-visual navigation enables embodied agents to navigate toward sound-emitting targets by leveraging both auditory and visual cues. However, most existing approaches rely on precomputed room impulse responses (RIRs) for binaural audio rendering, restricting agents to discrete grid positions and leading to spatially discontinuous observations. To establish a more realistic setting, we introduce Semantic Audio-Visual Navigation in Continuous Environments (SAVN-CE), where agents can move freely in 3D spaces and perceive temporally and spatially coherent audio-visual streams. In this setting, targets may intermittently become silent or stop emitting sound entirely, causing agents to lose goal information. To tackle this challenge, we propose MAGNet, a multimodal transformer-based model that jointly encodes spatial and semantic goal representations and integrates historical context with self-motion cues to enable memory-augmented goal reasoning. Comprehensive experiments demonstrate that MAGNet significantly outperforms state-of-the-art methods, achieving up to a 12.1\% absolute improvement in success rate. These results also highlight its robustness to short-duration sounds and long-distance navigation scenarios. The code is available at https://github.com/yichenzeng24/SAVN-CE.

연구 동기 및 목표

SAVN-CE를 연속 3D 환경으로 확장하여 에이전트가 미세한 동작으로 이동하도록 하는 시맨틱 오디오-비주얼 내비게이션을 확장한다.
청각 신호가 간헐적이거나 완전히 중단될 때 robust한 목표 추론을 가능하게 한다.
메모리 보강 다중 모달 트랜스포머(MAGNet)를 개발하여 오디오, 비전, 자기이동, 에피소드 메모리를 융합해 지속적인 목표 추적을 수행한다.
Matterport3D 기반 데이터셋에서 SAVN-CE를 평가하고, 특히 짧은 소리와 먼 거리 내비게이션에서 기존 AVN 방법들보다 개선을 보인다.
공간 및 시맨틱 목표 표현을 공동으로 인코딩하고 장기 계획을 위해 히스토리를 활용하는 학습 프레임워크를 제공한다.

제안 방법

Matterport3D 장면에서 SoundSpaces 2.0을 사용하여 연속 3D 환경에서 시간적으로 일관된 바이노럴 오디오를 렌더링하여 SAVN-CE를 도입한다.
세 가지 구성요소를 갖춘 MAGNet을 제안한다: (i) 오디오, 비전, 포즈, 행동을 융합해 장면 메모리에 고정하는 다중모달 관찰 인코더, (ii) 바이노럴 큐, 자기이동, 에피소드 메모리를 결합하여 공간-시맨틱 목표 표현을 추론하는 메모리 보강 목표 기술자 네트워크(GDN), (iii) 메모리에 주의를 기울여 행동을 예측하는 상황 인지 정책 네트워크.
오디오를 스펙트로그램 기반 특징과 채널 간 큐를 이용해 목표 방향과 거리를 공동으로 추정한다.
무음 기간 동안도 장기적 장면 메모리와 에피소드 메모리를 유지하여 시간적으로 일관된 목표 추론을 지원한다.
두 단계 학습 방식으로, ACCDDOA 라벨이 있는 감독식 GDN 업데이트와 분산 PPO를 통한 내비게이션 정책 학습을 사용하고, 목표를 효율적으로 달성하는 보상 구조를 사용한다.

실험 결과

연구 질문

RQ1연속 환경에서 부분적인 감각 관측으로 에이전트가 목표의 공간 위치와 시맨틱 카테고리를 추론할 수 있는가?
RQ2목표 소리가 간헐적이거나 무음일 때도 메모리 보강된 목표 추론이 내비게이션을 개선하는가?
RQ3MAGNet은 깨끗한 소리 조건과 방해 소음이 많은 조건에서 기존 AVN 방법과 어떻게 비교되는가?
RQ4자기이동 큐와 에피소드 메모리가 목표 추적 및 장기 계획에 어떤 기여를 하는가?
RQ5SAVN-CE에서 엔드투엔드 학습은 보이지 않는 환경과 소리에서도 견고한 성능을 낳는가?

주요 결과

MAGNet은 깨끗한 환경에서 기준선에 비해 상당한 향상을 달성하며, 성공 관련 지표에서 기존 방법들보다 눈에 띄는 이득을 보인다.
방해 소음이 있을 때 성능은 감소하지만 MAGNet은 여전히 기준선에 비해 목표 추론을 돕는 우수성을 보여준다.
제거 연구에서 메모리 보강 GDN과 자기이동 큐 및 에피소드 메모리의 통합이 견고한 성능과 SELD(소리 이벤트 위치 추정 및 탐지) 능력에 중요하다는 것을 보여준다.
오라클 변형은 목표 소리의 지속 시간과 침묵 후 업데이트가 달성 가능한 성능에 크게 영향을 미친다는 것을 시사하며, 지속적인 목표 표현의 가치를 강조한다.
시각화 결과는 과거 맥락을 활용하는 것이 목표 인식을 유지하고 소리가 간헐적이거나 없을 때 내비게이션 효율을 개선하는 데 도움을 준다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.