QUICK REVIEW
[论文解读] Naver at ActivityNet Challenge 2019 -- Task B Active Speaker Detection (AVA)
Joon Son Chung|arXiv (Cornell University)|Jun 25, 2019
Speech and Audio Processing参考文献 13被引用 31
一句话总结
该论文提出一种集成模型,结合3D-CNN前端特征与时间卷积和LSTM后端,用于在AVA-ActiveSpeaker数据集上进行主动说话者检测。通过利用自监督的音视频表征和时间平滑技术,该方法在测试集上实现了0.878的mAP,显著优于基线GRU模型(mAP 0.821)。
ABSTRACT
This report describes our submission to the ActivityNet Challenge at CVPR 2019. We use a 3D convolutional neural network (CNN) based front-end and an ensemble of temporal convolution and LSTM classifiers to predict whether a visible person is speaking or not. Our results show significant improvements over the baseline on the AVA-ActiveSpeaker dataset.
研究动机与目标
- 解决在说话段落极短(平均1.11秒)的视频中检测主动说话者的挑战。
- 克服旧版视频录制中普遍存在的音视频不同步问题。
- 开发一种不依赖精确音视频对齐的鲁棒主动说话者检测系统。
- 在不依赖长时序平滑窗口的前提下,提升现有方法的性能。
- 通过端到端深度学习与自监督预训练,在AVA-ActiveSpeaker数据集上实现最先进结果。
提出的方法
- 使用基于3D-CNN的视频编码器,处理5帧剪辑(0.2秒)以提取512维视觉特征。
- 对20帧谱图输入(13个倒谱系数)应用基于2D-CNN的音频编码器,生成512维音频特征。
- 在未标注视频数据上使用自监督对比学习训练前端编码器,以对齐音视频表征。
- 通过两个独立的后端分类器融合音频和视频特征:一个双向LSTM网络和一个两层时间卷积网络,两者均具有128个隐藏单元。
- 通过等权重平均LSTM和TC分类器的输出,对预测结果进行集成。
- 使用0.5秒窗口的中值滤波器或维纳滤波器进行时间平滑,以减少预测噪声。
实验结果
研究问题
- RQ1在音视频错位的情况下,自监督音视频表征学习方法是否能提升主动说话者检测性能?
- RQ2与LSTM相比,时间卷积网络在短序列主动说话者检测中的有效性如何?
- RQ3模型集成在AVA-ActiveSpeaker基准上能在多大程度上提升鲁棒性和准确性?
- RQ4时间平滑技术是否能增强在嘈杂或碎片化语音段落上的检测性能?
- RQ5所提方法是否优于依赖精确音视频同步的现有对应关系模型?
主要发现
- 采用维纳平滑的集成模型在保留测试集上达到最高的mAP 0.878,显著优于基线GRU模型(mAP 0.821)。
- TC分类器单独在验证集上达到0.855的mAP,略高于LSTM分类器(0.851)。
- 将LSTM和TC分类器的预测结果进行集成后,性能提升至mAP 0.861,表明结合不同时间建模方法具有优势。
- 应用0.5秒中值滤波器进行时间平滑后,性能提升至mAP 0.874,进一步采用维纳滤波后提升至mAP 0.878。
- 该模型在短说话段落(平均1.11秒)上表现出强泛化能力,优于需要更长时序上下文的方法。
- 该方法对音视频错位具有鲁棒性,因其不依赖模态间的精确同步。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。