QUICK REVIEW

[논문 리뷰] Self-Supervised Generation of Spatial Audio for 360 Video

Pedro Morgado, Nuno Vasconcelos|arXiv (Cornell University)|2018. 09. 07.

Speech and Audio Processing인용 수 79

한 줄 요약

이 논문은 비디오의 공간 오디오로부터 자기지도 학습을 이용해 모노 360° 비디오 오디오를 first-order ambisonics (FOA)로 업컨버트하는 엔드-투-엔드 신경망을 제시합니다. 모노 녹음에서 공간 오디오 생성을 가능하게 합니다.

ABSTRACT

We introduce an approach to convert mono audio recorded by a 360 video camera into spatial audio, a representation of the distribution of sound over the full viewing sphere. Spatial audio is an important component of immersive 360 video viewing, but spatial audio microphones are still rare in current 360 video production. Our system consists of end-to-end trainable neural networks that separate individual sound sources and localize them on the viewing sphere, conditioned on multi-modal analysis of audio and 360 video frames. We introduce several datasets, including one filmed ourselves, and one collected in-the-wild from YouTube, consisting of 360 videos uploaded with spatial audio. During training, ground-truth spatial audio serves as self-supervision and a mixed down mono track forms the input to our network. Using our approach, we show that it is possible to infer the spatial location of sound sources based only on 360 video and a mono audio track.

연구 동기 및 목표

360° 비디오에 대한 360° 공간화 문제(모노 -> FOA) 형식화합니다.
오디오-비주얼 단서를 guided로 하는 소스 분리 및 로컬라이제이션을 수행하는 엔드-투-엔드 신경망 아키텍처를 제안합니다.
공간 오디오를 갖춘 360° 비디오로부터의 자기지도 학습을 활용하여 각 소스에 대한 명시적 소스별 라벨 없이 모델을 학습합니다.
공간화 시스템을 학습하고 평가하기 위한 데이터셋을 수집하고 큐레이션합니다.
평가 프로토콜을 제공하고 베이스라인 대비 개선을 시연합니다.

제안 방법

모노 오디오와 360° 비디오로부터 멀티모달 특징을 추출합니다(오디오 STFT, RGB 프레임, 그리고 광학 흐름).
U-Net 기반의 분리 모듈을 사용하여 입력 모노 STFT를 보정하는 k 개의 시간-주파수 약화 맵을 생성합니다.
오디오-비주얼 특징을 수용하는 다중 모달 예측기를 통해 각 분리 소스의 로컬라이제이션 가중치를 계산합니다.
분리된 소스들을 로컬라이제이션 가중치로 선형 결합하여 FOA를 생성합니다(First-Order Ambisonics).
360° 비디오와 모노 입력의 짝을 이용한 실제 FOA를 보조 신호로 활용하여 자기지도 학습으로 엔드-투-엔드로 학습합니다.
STFT 거리(MSE on STFT), 엔벨로프 거리(ENV), 방향 에너지 맵의 Earth Mover’s Distance(EMD)로 평가합니다.

실험 결과

연구 질문

RQ1모노 360° 오디오가 대응하는 360° 비디오의 안내만으로 공간 FOA로 변환될 수 있는가?
RQ2작동 중인 야생 환경에서의 공동 오디오-비주얼 특징 및 소스 분리/로컬라이제이션 모듈이 공간 오디오 업컨버전에 얼마나 효과적인가?
RQ3공간화 품질에 대한 각 아키텍처 구성요소(비디오 RGB, 모션, 분리, 로컬라이제이션)의 기여는 무엇인가?
RQ4실세계 YouTube 360° 비디오에서 자기지도 공간 오디오 생성의 가능성과 한계는 무엇인가?

주요 결과

제안된 모델은 모노 입력으로부터 360° 비디오에 대해 그럴듯한 공간 오디오를 생성할 수 있습니다.
이 아키텍처는 several metrics and datasets에서 도메인 독립적 U-Net 베이스라인 및 모노 입력 어블레이션 대비 성능이 우수합니다.
시각 입력(RGB 및 모션)과 분리 모듈은 복잡한 야생 영상에서 중요하며, 이들 제거 시 성능 저하가 크게 나타납니다.
시스템은 실시간 가능한 성능을 달성하여 48 kHz로 1초의 공간 오디오를 GPU에서 103 ms에 생성합니다.
사용자 연구에서 이 방법이 종종 실제 공간 오디오로 인식되며, 베이스라인 및 모노 접근법을 능가합니다. 특히 HMD 시청 시나리오에서 더 두드러집니다.
다양한 장면에서 견고하지만, 많은 소스가 겹치거나 잔향이 강한 도전적 케이스에는 여전히 한계가 남아 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.