QUICK REVIEW

[论文解读] Self-Supervised Generation of Spatial Audio for 360 Video

Pedro Morgado, Nuno Vasconcelos|arXiv (Cornell University)|Sep 7, 2018

Speech and Audio Processing被引用 79

一句话总结

本论文提出一个端到端神经网络，从单声道360°视频音频提升到第一阶全指向声场（FOA），通过自监督学习自带空间音频的视频，能够从单声道录音生成空间音频。

ABSTRACT

We introduce an approach to convert mono audio recorded by a 360 video camera into spatial audio, a representation of the distribution of sound over the full viewing sphere. Spatial audio is an important component of immersive 360 video viewing, but spatial audio microphones are still rare in current 360 video production. Our system consists of end-to-end trainable neural networks that separate individual sound sources and localize them on the viewing sphere, conditioned on multi-modal analysis of audio and 360 video frames. We introduce several datasets, including one filmed ourselves, and one collected in-the-wild from YouTube, consisting of 360 videos uploaded with spatial audio. During training, ground-truth spatial audio serves as self-supervision and a mixed down mono track forms the input to our network. Using our approach, we show that it is possible to infer the spatial location of sound sources based only on 360 video and a mono audio track.

研究动机与目标

将360°视频的空间化问题（单声道 -> FOA）形式化。
提出一个端到端的神经架构，通过音视频线索实现源分离和定位。
利用具有空间音频的360°视频的自监督信号来训练模型，而无需显式的逐源标签。
收集并整理数据集以训练和评估空间化系统。
提供评估协议并展示相对于基线的改进。

提出的方法

从单声道音频和360°视频中提取多模态特征（音频STFT、RGB帧和光流）。
使用基于U-Net的分离模块生成k个时频衰减图，将其调制输入的单声道STFT。
通过一个多模态预测器输入音视频特征，计算每个分离源的定位权重。
通过用分离源及其定位权重线性组合来生成全指向声道，得到第一阶全指向声场（FOA）。
通过利用来自配对的具空间音频的360°视频的真实FOA，以及单声道输入作为监督，进行端到端的自监督训练。
使用STFT距离（STFT上的均方误差）、包络距离（ENV）以及基于方向能量图的地球移动距离（EMD）进行评估。

实验结果

研究问题

RQ1是否可以仅使用相应的360°视频作为引导，将单声道360°音频转换为空间FOA？
RQ2在真实场景中，联合音视频特征以及源分离/定位模块在空间音频上转换的有效性如何？
RQ3各个架构组件（视频RGB、运动、分离、定位）对空间化质量的贡献是多少？
RQ4在真实世界的YouTube 360°视频上进行自监督空间音频生成的能力与局限性是什么？

主要发现

所提出的模型能够从单声输入为360°视频生成看似真实的空间音频。
该架构在多项指标和数据集上超越了领域无关的U-Net基线以及单声输入消融。
视觉输入（RGB和运动）与分离模块对于复杂的野外场景很重要；消融实验在没有它们时显示显著性能下降。
系统实现了实时能力，在GPU上以103 ms生成1秒、48 kHz的空间音频。
用户研究表明该方法在多数情况下被感知为真实空间音频，优于基线和单声道方法，特别是在头戴显示器（HMD）观看场景中。
该方法在各种场景中的鲁棒性仍然较好，但多源重叠或混响较强的挑战性场景仍存在局限。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。