[論文レビュー] ImmersiveFlow: Stereo-to-7.1.4 spatial audio generation with flow matching
ImmersiveFlow は、ステレオ入力から 7.1.4 空間音をエンドツーエンドで生成する初のモデル。条件付きフローマッチングを利用して、マルチチャンネル音響を直接生成します。
Immersive spatial audio has become increasingly critical for applications ranging from AR/VR to home entertainment and automotive sound systems. However, existing generative methods remain constrained to low-dimensional formats such as binaural audio and First-Order Ambisonics (FOA). Binaural rendering is inherently limited to headphone playback, while FOA suffers from spatial aliasing and insufficient resolution for high-frequency. To overcome these limitations, we introduce ImmersiveFlow, the first end-to-end generative framework that directly synthesizes discrete 7.1.4 format spatial audio from stereo input. ImmersiveFlow leverages Flow Matching to learn trajectories from stereo inputs to multichannel spatial features within a pretrained VAE latent space. At inference, the Flow Matching model predicted latent features are decoded by the VAE and converted into the final 7.1.4 waveform. Comprehensive objective and subjective evaluations demonstrate that our method produces perceptually rich sound fields and enhanced externalization, significantly outperforming traditional upmixing techniques. Code implementations and audio samples are provided at: https://github.com/violet-audio/ImmersiveFlow.
研究の動機と目的
- 新しいタスクであるステレオ入力からのマルチチャンネル空間音生成の定義と解決。
- 低次元フォーマットではなく離散的な 7.1.4 音声を出力するエンドツーエンドフレームワークの開発。
- ステレオ潜在表現を没入音潜在へマッピングするために、VAE 空間内でフローに基づく生成モデリングを活用。
- 客観・主観評価を通じて知覚品質、外部化、および空間リアリズムを示す。
提案手法
- pretrained VAE でステレオおよび 7.1.4 音声をチャンネルごと latent 表現へエンコード。
- transformer ベースの DiT アーキテクチャで Conditional Flow Matching (CFM) モデルを訓練し、ステレオ latent を没入音 latent へマッピング。
- FiLM 条件付けを用いてステレオ潜在を velocity field に間接的に供給し、ターゲットフローを予測するよう最適化。
- 学習済み velocity field で ODE を解いて Immersive latent を推定し、その後 VAE デコーダで 7.1.4 の波形へデコード。
- objective および subjective 評価の両方を用いて、商用アップミキサーおよび mel スペクトログラムベースと比較。

実験結果
リサーチクエスチョン
- RQ1 latent 空間での flow matching を用いてステレオ入力を直接 discrete な 7.1.4 空間音へアップミックスできるか。
- RQ2 flow ベースの latent 生成は従来のアップミックスより空間忠実度と外部化を改善するか。
- RQ3 VAE ベースの latent 表現は mel スペクトログラム入力と比較して高チャンネル空間音生成にどのような影響を与えるか。
主な発見
| Model | L | R | C | LFE | Lss | Rss | Lrs | Rrs | Ltf | Rtf | Ltb | Rtb | ViSQOL | PAM | FAD_CLAP | MAD_MERT | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Halo Upmix | 4.071 | 4.068 | 4.279 | 4.710 | 3.291 | 3.305 | 4.098 | 4.092 | 3.627 | 3.613 | 3.665 | 3.666 | 4.071 | 0.811 | 0.042 | 0.029 | |
| WavDSP UpMix | 3.716 | 3.686 | 4.250 | 4.688 | 3.270 | 3.292 | 4.039 | 4.048 | 3.665 | 3.688 | 3.807 | 3.829 | 3.716 | 0.828 | 0.119 | 0.119 | 1.609 |
| ImmersiveFlow-mel | 4.402 | 4.402 | 4.346 | 4.710 | 3.261 | 3.273 | 4.153 | 4.155 | 3.689 | 3.699 | 3.898 | 3.895 | 4.402 | 0.803 | 0.012 | 0.012 | 0.001 |
| ImmersiveFlow | 3.980 | 3.967 | 4.303 | 4.700 | 3.289 | 3.301 | 4.223 | 4.218 | 3.879 | 3.885 | 3.955 | 3.964 | 3.980 | 0.749 | 0.045 | 0.045 | 0.028 |
- ImmersiveFlow は ViSQOL および PAM における Halo Upmix および WavDSP に対して知覚品質で競合し、 surround/top チャンネルに対する FAD および MAD の生成指標でベースラインを上回る。
- Flow ベースの latent 生成は mel ベースのベースラインより分布誤差を低く抑え、特に surround および top チャンネルで顕著。
- 主観的 MOS は Halo がリードし、ImmersiveFlow がそれに次ぎ、全ての手法比較が統計的有意。
- 可視化は ground truth との全体スペクトル構造の強い一致を示し、チャンネルの役割と空間手掛かりの伝達が効果的だが、一部の高周波/トップチャンネルの細部が抑制される場合がある。
![Fig. 2 : Illustration of the 7.1.4 loudspeaker configuration with positions, following ITU standard [ 8 ] . Abbreviations: L/R (Left/Right), C (Center), LFE (Subwoofer), Lss/Rss (Side Surround), Lrs/Rrs (Rear Surround), Ltf/Rtf (Top Front), Ltb/Rtb (Top Back). The positions shown are [azimuth, eleva](https://ar5iv.labs.arxiv.org/html/2601.12950/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。