QUICK REVIEW

[论文解读] Putting a Face to the Voice: Fusing Audio and Visual Signals Across a Video to Determine Speakers

Ken Hoover, Sourish Chaudhuri|arXiv (Cornell University)|May 31, 2017

Speech and Audio Processing参考文献 16被引用 32

一句话总结

该论文提出了一种弱监督、无需训练的方法，通过融合视频中音频语音聚类与视觉人脸聚类，实现对非结构化视频中语音与人脸的关联。该方法仅使用预训练模型且无需任务相关标注数据，在真实世界YouTube数据集上实现了71%的说话人识别准确率，有效处理了非画面内说话人和多说话人场景，且无需预先假设说话人数或录音条件。

ABSTRACT

In this paper, we present a system that associates faces with voices in a video by fusing information from the audio and visual signals. The thesis underlying our work is that an extremely simple approach to generating (weak) speech clusters can be combined with visual signals to effectively associate faces and voices by aggregating statistics across a video. This approach does not need any training data specific to this task and leverages the natural coherence of information in the audio and visual streams. It is particularly applicable to tracking speakers in videos on the web where a priori information about the environment (e.g., number of speakers, spatial signals for beamforming) is not available. We performed experiments on a real-world dataset using this analysis framework to determine the speaker in a video. Given a ground truth labeling determined by human rater consensus, our approach had ~71% accuracy.

研究动机与目标

开发一种系统，可在无需特定说话人标注训练数据的情况下，自动关联非结构化网络视频中的语音与人脸。
实现在无任何先验信息（包括非画面内说话人、多说话人或未知参与人数）的视频中进行说话人识别。
利用视频中音频与视觉信号的自然一致性，通过弱语音聚类与强人脸聚类提升说话人分割性能。
为开放网络视频内容创建一种实用且可扩展的说话人识别解决方案，适用于大规模视频理解任务。

提出的方法

系统使用预训练的FaceNet模型将人脸检测并嵌入128维向量，实现视频中的人脸聚类以识别一致的个体。
音频通过弱语音分割系统处理，生成无说话人标签的粗粒度语音段，依赖语音活动检测与相似性聚类。
通过在视频中聚合证据将语音段与人脸关联：若某人脸在某语音段期间频繁出现，则将其关联到该语音段。
通过时间对齐与视觉持续性作为线索，将说话人识别为在语音段期间最稳定出现的面部，即使说话人处于非画面内。
该方法无需音频同步、空间信息或面对面对齐，因此对真实世界视频的多样性具有鲁棒性。
通过在400个YouTube视频的3558个片段上进行人工标注者一致性评估来衡量性能，组间一致性（Fleiss’ kappa）为0.732。

实验结果

研究问题

RQ1弱语音聚类与强视觉人脸聚类能否有效融合，实现在无任何标注训练数据情况下的非结构化视频中说话人识别？
RQ2当说话人处于非画面内或未正对摄像头时，系统识别说话人的能力如何？
RQ3在视频中聚合视觉与音频信号在多大程度上能超越随机猜测水平提升说话人识别性能？
RQ4系统的主要失败模式是什么？其与说话人轮流发言假设的关系如何？

主要发现

该系统在真实世界YouTube数据集上的说话人识别准确率达到71%，显著优于随机猜测基线（20%）。
在65%的错误案例中，系统成功识别出非画面内说话人，表明其对视觉缺失具有鲁棒性。
主要失败模式是重叠语音且无明确发言边界，系统将此类情况视为单一语音段，导致65%的错误。
人工标注者之间的一致性达到中等水平（Fleiss’ kappa = 0.732），证实了任务的难度与评估的可靠性。
该方法无需预先知晓说话人数、录音环境或脚本内容，适用于开放网络视频分析。
结果表明，将弱语音信号与强视觉人脸聚类结合，可为真实世界视频中的说话人识别提供强大且可扩展的解决方案。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。