[论文解读] Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection
本文提出TalkNet,一种新颖的音视频主动说话人检测框架,通过自注意力机制和音视频交叉注意力机制,利用音频与视频流中的长期时序特征。通过建模整个话语的扩展时序上下文和模态间同步性,TalkNet在AVA-ActiveSpeaker和Columbia ASD数据集上分别实现mAP提升3.5%和2.2%,达到当前最先进性能。
Active speaker detection (ASD) seeks to detect who is speaking in a visual scene of one or more speakers. The successful ASD depends on accurate interpretation of short-term and long-term audio and visual information, as well as audio-visual interaction. Unlike the prior work where systems make decision instantaneously using short-term features, we propose a novel framework, named TalkNet, that makes decision by taking both short-term and long-term features into consideration. TalkNet consists of audio and visual temporal encoders for feature representation, audio-visual cross-attention mechanism for inter-modality interaction, and a self-attention mechanism to capture long-term speaking evidence. The experiments demonstrate that TalkNet achieves 3.5% and 2.2% improvement over the state-of-the-art systems on the AVA-ActiveSpeaker dataset and Columbia ASD dataset, respectively. Code has been made available at: https://github.com/TaoRuijie/TalkNet_ASD.
研究动机与目标
- 为解决现有主动说话人检测(ASD)系统仅依赖短期音视频特征的局限性,这些方法往往无法捕捉有意义的说话上下文。
- 探究在动态、真实场景中,长期时序建模在音频和视觉流中的有效性,以提升ASD的鲁棒性。
- 探索音视频交叉注意力与自注意力机制在捕捉模态间同步性与长期说话证据方面的潜力。
- 开发一种高效的音频增强技术,提升模型在无外部噪声数据集依赖下的鲁棒性。
提出的方法
- TalkNet采用独立的音频与视觉时序编码器,从连续帧中提取长期表征,捕捉超越短段落的时序动态。
- 通过音视频交叉注意力机制,建模模态间关系及语音与唇部运动随时间的同步性。
- 在融合特征上应用自注意力机制,以捕捉整个话语中的长期说话模式。
- 采用对比学习目标与三元组损失进行训练,以增强判别性特征学习。
- 提出一种基于负样本采样的创新音频增强技术,无需外部数据即可提升模型在嘈杂环境中的鲁棒性。
- 该框架端到端可训练,专为帧级主动说话人分类进行优化。
实验结果
研究问题
- RQ1长期音频与视觉时序特征是否能显著提升主动说话人检测性能,超越基于短段落的方法?
- RQ2音视频交叉注意力在长时间话语中建模同步性与模态间证据方面有多有效?
- RQ3对长期特征应用自注意力机制,在跨多帧检测说话活动方面能提升多少?
- RQ4所提出的负样本采样音频增强技术是否在嘈杂条件下优于传统数据增强方法?
主要发现
- 在AVA-ActiveSpeaker数据集上,TalkNet相比当前最先进方法实现mAP绝对提升3.5%,达到92.3% mAP。
- 在Columbia ASD数据集上,TalkNet实现mAP提升2.2%,优于先前方法。
- 消融实验表明,移除自注意力或交叉注意力模块会使mAP分别下降1.4%和0.7%,证明其有效性。
- 所提出的负样本采样音频增强技术优于传统基于噪声的增强方法,在无外部数据情况下实现92.3% mAP。
- TalkNet在所有人脸尺寸类别中均保持优异性能,且在单帧中存在多个面孔时仍为最鲁棒的模型。
- 将输入片段从11帧扩展至25帧,使TalkNet的mAP提升4.8%,而先前方法mAP下降2.1%,证明注意力机制在长段落中的必要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。