QUICK REVIEW

[论文解读] Seeing Through Noise: Speaker Separation and Enhancement using Visually-derived Speech.

Aviv Gabbay, Ariel Ephrat|arXiv (Cornell University)|Aug 22, 2017

Speech and Audio Processing参考文献 21被引用 13

一句话总结

该论文提出了一种新颖的音视频方法，通过利用视频中面部运动线索生成清晰语音预测，再将这些预测用作噪声音频的滤波器，实现说话人分离与语音增强。该方法避免了在混合音频上进行训练，转而使用视频到语音模型推断目标说话人语音，从而在GRID和TCD-TIMIT数据集上显著提升了SDR和PESQ指标，优于原始预测结果和仅音频基线模型。

ABSTRACT

Isolating the voice of a specific person while filtering out other voices or background noises is challenging when video is shot in noisy environments. We propose audio-visual methods to isolate the voice of a single speaker and eliminate unrelated sounds. First, face motions captured in the video are used to estimate the speaker's voice, by passing the silent video frames through a video-to-speech neural network-based model. Then the speech predictions are applied as a filter on the noisy input audio. This approach avoids using mixtures of sounds in the learning process, as the number of such possible mixtures is huge, and would inevitably bias the trained model. We evaluate our method on two audio-visual datasets, GRID and TCD-TIMIT, and show that our method attains significant SDR and PESQ improvements over the raw video-to-speech predictions, and a well-known audio-only method.

研究动机与目标

解决在噪声多说话人环境中仅依赖音频的方法难以分离单个说话人语音的挑战。
克服在庞大且多样的语音与噪声混合数据上进行训练所带来的局限性，此类数据可能引入模型偏差并降低泛化能力。
利用视觉线索——特别是面部运动——来生成目标说话人的准确语音预测，以实现说话人分离。
通过将这些视觉衍生的预测用作原始音频的滤波器，而非仅依赖音频输入，从而提升语音增强与分离性能。

提出的方法

将视频到语音神经网络应用于静止的视频帧，基于面部运动预测目标说话人的语音信号。
将预测的语音信号用作滤波器，从噪声混合音频中分离出对应说话人的语音。
该方法通过依赖仅视觉的语音生成，避免了在混合音频上进行端到端训练，从而降低了混合音频数据的复杂性与偏差。
该方法在两个音视频数据集（GRID和TCD-TIMIT）上进行训练与评估，以视频帧作为输入生成语音预测。
将滤波后的音频输出与原始视频到语音预测结果及强音频仅基线模型进行对比，以衡量性能。

实验结果

研究问题

RQ1能否有效利用面部运动的视觉线索生成清晰语音预测，以实现在噪声环境下的说话人分离？
RQ2使用视频衍生的语音预测对噪声音频进行滤波，是否能相比原始视频到语音输出，进一步提升语音分离与增强性能？
RQ3在SDR与PESQ指标上，该方法与一种知名音频仅说话人分离方法相比表现如何？
RQ4避免在混合音频混合数据上进行训练，是否能带来更好的泛化能力与说话人分离性能？

主要发现

所提方法在信号失真比（SDR）与语音质量感知评价（PESQ）方面，相比原始视频到语音预测结果实现了显著提升。
该方法在GRID与TCD-TIMIT两个数据集上均优于一种知名的音频仅说话人分离方法。
通过避免在混合音频上进行训练，模型规避了由语音混合组合爆炸所引入的偏差。
利用视觉衍生语音作为滤波器，即使在高度噪声环境下，也能有效分离目标说话人语音。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。