[论文解读] Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation
本论文提出一个说话人无关的音视频深度模型,利用面部视觉线索从嘈杂的多说话人混合中分离并增强目标说话人,使用大型 AVSpeech 数据集进行训练,并证明优于仅音频的方法。
We present a joint audio-visual model for isolating a single speech signal from a mixture of sounds such as other speakers and background noise. Solving this task using only audio as input is extremely challenging and does not provide an association of the separated speech signals with speakers in the video. In this paper, we present a deep network-based model that incorporates both visual and auditory signals to solve this task. The visual features are used to "focus" the audio on desired speakers in a scene and to improve the speech separation quality. To train our joint audio-visual model, we introduce AVSpeech, a new dataset comprised of thousands of hours of video segments from the Web. We demonstrate the applicability of our method to classic speech separation tasks, as well as real-world scenarios involving heated interviews, noisy bars, and screaming children, only requiring the user to specify the face of the person in the video whose speech they want to isolate. Our method shows clear advantage over state-of-the-art audio-only speech separation in cases of mixed speech. In addition, our model, which is speaker-independent (trained once, applicable to any speaker), produces better results than recent audio-visual speech separation methods that are speaker-dependent (require training a separate model for each speaker of interest).
研究动机与目标
- 通过利用视觉线索,推动并实现在嘈杂的多说话人视频中分离单个说话人的声音。
- 引入一个大规模的AV语音数据集(AVSpeech),用于训练说话人无关的AV模型。
- 开发并训练一个多流神经网络,将音频和视觉特征融合,以为每个可见说话人产生独立的语音流。
- 在真实世界和合成场景中,展示相较于仅音频的语音分离和先前AV方法的改进。
提出的方法
- 一个多流神经网络,对每个检测到的说话人,将音频谱图和人脸嵌入作为输入。
- 视觉流使用带扩张卷积的逐帧人脸嵌入进行处理;音频流使用带扩张卷积的STFT特征进行处理。
- 通过将音频和视觉特征串联进行融合,随后经过一个BLSTM和三层全连接层,为每个说话人输出复数谱图掩码。
- 掩码可以是复数比率掩码(cRM)或比率掩码(RM);通常cRM能获得更好的语音质量。
- 训练在幂律压缩的谱图上使用L2损失;ISTFT恢复波形。
- 模型支持可见说话人人数的变化,为1、2或3个输入流提供分离模型;权重在各流之间共享。
实验结果
研究问题
- RQ1一个说话人无关的音视频模型是否在单声道混合中对背景噪声下的音频分离优于仅音频的语音分离?
- RQ2将可见脸部信息引入是否能改善分离语音与视频中说话人的关联?
- RQ3输入视觉流的数量(说话人)如何影响分离质量?
- RQ4模型是否能在现实世界中存在的重叠语音和噪声场景下推广,超越合成混合?
主要发现
| Experiment | AO [Yu et al., 2017] | AV - 1 face | AV - 2 faces | AV - 3 faces |
|---|---|---|---|---|
| 1S+Noise | 16.0 | 16.0 | - | - |
| 2S clean | 8.6 | 9.9 | 10.3 | - |
| 2S+Noise | 10.0 | 10.1 | 10.6 | - |
| 3S clean | 8.6 | - | - | 10.0 |
- AV 模型在多项任务的合成混合上优于音频仅基线。
- 对于2S 的清晰任务,使用两个可见脸时的 SDR 提升为 10.3 dB,随着流增加的边际收益有限。
- 三说话人(3S)的清晰混合在三个视觉流下实现约 10 dB 的 SDR 提升。
- 两个输入流的双说话人模型相比单流 AV 模型提供显著的 0.4–0.5 dB 额外 SDR 增益。
- 真实世界视频(热烈辩论、酒吧、尖叫的孩子)在隔离目标说话人方面呈现定性改进,尽管不是真正实时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。