Skip to main content
QUICK REVIEW

[论文解读] Naver at ActivityNet Challenge 2019 -- Task B Active Speaker Detection (AVA)

Joon Son Chung|arXiv (Cornell University)|Jun 25, 2019
Speech and Audio Processing参考文献 13被引用 31
一句话总结

该论文提出一种集成模型,结合3D-CNN前端特征与时间卷积和LSTM后端,用于在AVA-ActiveSpeaker数据集上进行主动说话者检测。通过利用自监督的音视频表征和时间平滑技术,该方法在测试集上实现了0.878的mAP,显著优于基线GRU模型(mAP 0.821)。

ABSTRACT

This report describes our submission to the ActivityNet Challenge at CVPR 2019. We use a 3D convolutional neural network (CNN) based front-end and an ensemble of temporal convolution and LSTM classifiers to predict whether a visible person is speaking or not. Our results show significant improvements over the baseline on the AVA-ActiveSpeaker dataset.

研究动机与目标

  • 解决在说话段落极短(平均1.11秒)的视频中检测主动说话者的挑战。
  • 克服旧版视频录制中普遍存在的音视频不同步问题。
  • 开发一种不依赖精确音视频对齐的鲁棒主动说话者检测系统。
  • 在不依赖长时序平滑窗口的前提下,提升现有方法的性能。
  • 通过端到端深度学习与自监督预训练,在AVA-ActiveSpeaker数据集上实现最先进结果。

提出的方法

  • 使用基于3D-CNN的视频编码器,处理5帧剪辑(0.2秒)以提取512维视觉特征。
  • 对20帧谱图输入(13个倒谱系数)应用基于2D-CNN的音频编码器,生成512维音频特征。
  • 在未标注视频数据上使用自监督对比学习训练前端编码器,以对齐音视频表征。
  • 通过两个独立的后端分类器融合音频和视频特征:一个双向LSTM网络和一个两层时间卷积网络,两者均具有128个隐藏单元。
  • 通过等权重平均LSTM和TC分类器的输出,对预测结果进行集成。
  • 使用0.5秒窗口的中值滤波器或维纳滤波器进行时间平滑,以减少预测噪声。

实验结果

研究问题

  • RQ1在音视频错位的情况下,自监督音视频表征学习方法是否能提升主动说话者检测性能?
  • RQ2与LSTM相比,时间卷积网络在短序列主动说话者检测中的有效性如何?
  • RQ3模型集成在AVA-ActiveSpeaker基准上能在多大程度上提升鲁棒性和准确性?
  • RQ4时间平滑技术是否能增强在嘈杂或碎片化语音段落上的检测性能?
  • RQ5所提方法是否优于依赖精确音视频同步的现有对应关系模型?

主要发现

  • 采用维纳平滑的集成模型在保留测试集上达到最高的mAP 0.878,显著优于基线GRU模型(mAP 0.821)。
  • TC分类器单独在验证集上达到0.855的mAP,略高于LSTM分类器(0.851)。
  • 将LSTM和TC分类器的预测结果进行集成后,性能提升至mAP 0.861,表明结合不同时间建模方法具有优势。
  • 应用0.5秒中值滤波器进行时间平滑后,性能提升至mAP 0.874,进一步采用维纳滤波后提升至mAP 0.878。
  • 该模型在短说话段落(平均1.11秒)上表现出强泛化能力,优于需要更长时序上下文的方法。
  • 该方法对音视频错位具有鲁棒性,因其不依赖模态间的精确同步。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。