[논문 리뷰] ImmersiveFlow: Stereo-to-7.1.4 spatial audio generation with flow matching
ImmersiveFlow는 stereo 입력에서 7.1.4 멀티채널 공간 오디오를 직접 생성하는 최초의 엔드-투-엔드 모델을 도입합니다. Conditional Flow Matching을 사전학습된 VAE 잠재 공간에서 사용합니다.
Immersive spatial audio has become increasingly critical for applications ranging from AR/VR to home entertainment and automotive sound systems. However, existing generative methods remain constrained to low-dimensional formats such as binaural audio and First-Order Ambisonics (FOA). Binaural rendering is inherently limited to headphone playback, while FOA suffers from spatial aliasing and insufficient resolution for high-frequency. To overcome these limitations, we introduce ImmersiveFlow, the first end-to-end generative framework that directly synthesizes discrete 7.1.4 format spatial audio from stereo input. ImmersiveFlow leverages Flow Matching to learn trajectories from stereo inputs to multichannel spatial features within a pretrained VAE latent space. At inference, the Flow Matching model predicted latent features are decoded by the VAE and converted into the final 7.1.4 waveform. Comprehensive objective and subjective evaluations demonstrate that our method produces perceptually rich sound fields and enhanced externalization, significantly outperforming traditional upmixing techniques. Code implementations and audio samples are provided at: https://github.com/violet-audio/ImmersiveFlow.
연구 동기 및 목표
- 스테레오 입력에서 멀티채널 공간 오디오 생성을 새로운 작업으로 정의하고 해결.
- 7.1.4 오디오를 이산적(discrete) 형태로 출력하는 엔드-투-엔드 프레임워크를 개발.
- Flow 기반 생성 모델링을 활용하여 stereo 잠재 표현을 VAE 공간 내의 몰입 음향 잠재로 매핑.
- 객관적 및 주관적 평가를 통해 지각 품질, 외부화 및 공간적 리얼리즘을 입증.
제안 방법
- 사전학습된 VAE로 스테레오 및 7.1.4 오디오를 채널별 잠재 표현으로 인코딩.
- Transformer 기반 DiT 아키텍처에서 Conditional Flow Matching (CFM) 모델을 학습하여 스테레오 잠재를 몰입 음향 잠재로 매핑.
- FiLM 조건 부여를 통해 스테레오 잠재로 속도장(velocity field)을 조건화하고 대상 흐름을 예측하도록 최적화.
- 학습된 속도장을 이용해 ODE를 풀어 몰입 잠재를 얻고, VAE 디코더를 통해 7.1.4 파형으로 디코딩.
- 상용 업믹서 및 멜 스펙트로그램 기준과 비교하고, 객관적 및 주관적 평가를 사용.

실험 결과
연구 질문
- RQ1스테레오 입력을 흐름 매칭을 이용하여 잠재 공간에서 직접 7.1.4 공간 오디오로 업믹스할 수 있는가?
- RQ2플로우 기반 잠재 생성이 기존 업믹 대비 공간 충실도와 외부화를 개선하는가?
- RQ3VAE 기반 잠재 표현이 멜-스펙트로그램 입력과 비교하여 고채널 공간 오디오 생성에 미치는 영향은 무엇인가?
주요 결과
| 모델 | L | R | C | LFE | Lss | Rss | Lrs | Rrs | Ltf | Rtf | Ltb | Rtb | ViSQOL | PAM | FAD_CLAP | MAD_MERT | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Halo Upmix | 4.071 | 4.068 | 4.279 | 4.710 | 3.291 | 3.305 | 4.098 | 4.092 | 3.627 | 3.613 | 3.665 | 3.666 | 4.071 | 0.811 | 0.042 | 0.029 | |
| WavDSP UpMix | 3.716 | 3.686 | 4.250 | 4.688 | 3.270 | 3.292 | 4.039 | 4.048 | 3.665 | 3.688 | 3.807 | 3.829 | 3.716 | 0.828 | 0.119 | 0.119 | 1.609 |
| ImmersiveFlow-mel | 4.402 | 4.402 | 4.346 | 4.710 | 3.261 | 3.273 | 4.153 | 4.155 | 3.689 | 3.699 | 3.898 | 3.895 | 4.402 | 0.803 | 0.012 | 0.012 | 0.001 |
| ImmersiveFlow | 3.980 | 3.967 | 4.303 | 4.700 | 3.289 | 3.301 | 4.223 | 4.218 | 3.879 | 3.885 | 3.955 | 3.964 | 3.980 | 0.749 | 0.045 | 0.045 | 0.028 |
- ImmersiveFlow는 ViSQOL 및 PAM에서 Halo Upmix 및 WavDSP와 경쟁력 있는 지각 품질을 달성하고, SURROUND/TOP 채널의 생성 지표(FAD, MAD)에서 기준선을 능가한다.
- 플로우 기반 잠재 생성은 멜 기반 기준선보다 분포 오차가 작게 나타나며, 특히 surround 및 top 채널에서 차이가 크다.
- 주관적 MOS에서 Halo가 선두를 보이고 ImmersiveFlow가 그 뒤를 바짝 추격하며, 모든 방법 간 차이는 통계적으로 유의하다.
- 시각화 결과는 ground truth와의 글로벌 스펙트럴 구조 매칭이 강하므로 채널 역할과 공간적 신호의 전달이 효과적임을 시사하나, 일부 고주파/상위 채널 세부가 약화될 수 있다.
![Fig. 2 : Illustration of the 7.1.4 loudspeaker configuration with positions, following ITU standard [ 8 ] . Abbreviations: L/R (Left/Right), C (Center), LFE (Subwoofer), Lss/Rss (Side Surround), Lrs/Rrs (Rear Surround), Ltf/Rtf (Top Front), Ltb/Rtb (Top Back). The positions shown are [azimuth, eleva](https://ar5iv.labs.arxiv.org/html/2601.12950/assets/x2.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.