QUICK REVIEW

[论文解读] Naver at ActivityNet Challenge 2019 -- Task B Active Speaker Detection (AVA)

Joon Son Chung|arXiv (Cornell University)|Jun 25, 2019

Speech and Audio Processing参考文献 13被引用 31

一句话总结

该论文提出一种集成模型，结合3D-CNN前端特征与时间卷积和LSTM后端，用于在AVA-ActiveSpeaker数据集上进行主动说话者检测。通过利用自监督的音视频表征和时间平滑技术，该方法在测试集上实现了0.878的mAP，显著优于基线GRU模型（mAP 0.821）。

ABSTRACT

This report describes our submission to the ActivityNet Challenge at CVPR 2019. We use a 3D convolutional neural network (CNN) based front-end and an ensemble of temporal convolution and LSTM classifiers to predict whether a visible person is speaking or not. Our results show significant improvements over the baseline on the AVA-ActiveSpeaker dataset.

研究动机与目标

解决在说话段落极短（平均1.11秒）的视频中检测主动说话者的挑战。
克服旧版视频录制中普遍存在的音视频不同步问题。
开发一种不依赖精确音视频对齐的鲁棒主动说话者检测系统。
在不依赖长时序平滑窗口的前提下，提升现有方法的性能。
通过端到端深度学习与自监督预训练，在AVA-ActiveSpeaker数据集上实现最先进结果。

提出的方法

使用基于3D-CNN的视频编码器，处理5帧剪辑（0.2秒）以提取512维视觉特征。
对20帧谱图输入（13个倒谱系数）应用基于2D-CNN的音频编码器，生成512维音频特征。
在未标注视频数据上使用自监督对比学习训练前端编码器，以对齐音视频表征。
通过两个独立的后端分类器融合音频和视频特征：一个双向LSTM网络和一个两层时间卷积网络，两者均具有128个隐藏单元。
通过等权重平均LSTM和TC分类器的输出，对预测结果进行集成。
使用0.5秒窗口的中值滤波器或维纳滤波器进行时间平滑，以减少预测噪声。

实验结果

研究问题

RQ1在音视频错位的情况下，自监督音视频表征学习方法是否能提升主动说话者检测性能？
RQ2与LSTM相比，时间卷积网络在短序列主动说话者检测中的有效性如何？
RQ3模型集成在AVA-ActiveSpeaker基准上能在多大程度上提升鲁棒性和准确性？
RQ4时间平滑技术是否能增强在嘈杂或碎片化语音段落上的检测性能？
RQ5所提方法是否优于依赖精确音视频同步的现有对应关系模型？

主要发现

采用维纳平滑的集成模型在保留测试集上达到最高的mAP 0.878，显著优于基线GRU模型（mAP 0.821）。
TC分类器单独在验证集上达到0.855的mAP，略高于LSTM分类器（0.851）。
将LSTM和TC分类器的预测结果进行集成后，性能提升至mAP 0.861，表明结合不同时间建模方法具有优势。
应用0.5秒中值滤波器进行时间平滑后，性能提升至mAP 0.874，进一步采用维纳滤波后提升至mAP 0.878。
该模型在短说话段落（平均1.11秒）上表现出强泛化能力，优于需要更长时序上下文的方法。
该方法对音视频错位具有鲁棒性，因其不依赖模态间的精确同步。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。