[论文解读] A Deep Learning Approach for Multimodal Deception Detection
本文提出了一种深度学习模型,通过融合真实庭审视频中的视觉、文本、音频和微表情特征,实现欺骗检测。采用一种简单但有效的多层感知机(MLP)进行分层融合,模型在包含121个视频的小型但真实的数据集上实现了96.14%的准确率和0.9799的AUC,显著优于先前的最先进方法。
Automatic deception detection is an important task that has gained momentum in computational linguistics due to its potential applications. In this paper, we propose a simple yet tough to beat multi-modal neural model for deception detection. By combining features from different modalities such as video, audio, and text along with Micro-Expression features, we show that detecting deception in real life videos can be more accurate. Experimental results on a dataset of real-life deception videos show that our model outperforms existing techniques for deception detection with an accuracy of 96.14% and ROC-AUC of 0.9799.
研究动机与目标
- 通过利用视频、音频、文本和微表情的多模态信号,提升真实场景下欺骗检测的准确率。
- 开发一种深度学习方法,使其在欺骗检测中优于传统机器学习和手工设计特征的方法。
- 证明即使在数据有限的情况下,简单的神经网络架构结合有效的特征融合,也能实现最先进性能。
- 探究不同模态(尤其是视觉和文本特征)对欺骗检测的相对贡献。
- 为未来基于深度学习的多模态欺骗检测研究提供一个稳健的基线。
提出的方法
- 使用3D-CNN从视频片段中提取时空视觉特征。
- 使用TextCNN模型结合静态和非静态词嵌入提取文本特征。
- 使用OpenSMILE等开源工具提取音频特征,捕捉语音和频谱特性。
- 通过专用的面部关键点检测和动作单元识别流程检测微表情特征。
- 使用多层感知机(MLP)融合所有模态的特征,采用分层融合(H+C)策略,结合晚期融合与早期融合方法。
- 模型采用交叉熵损失进行端到端训练,使用Adam优化,并应用L2正则化以缓解小数据集上的过拟合问题。
实验结果
研究问题
- RQ1能否通过融合多种模态(文本、音频、视频、微表情)的深度学习模型,在欺骗检测中超越传统机器学习模型?
- RQ2在真实庭审视频中,哪种模态对欺骗检测准确率的贡献最为显著?
- RQ3与依赖人工特征工程的模型相比,采用神经网络的端到端学习是否能提升性能?
- RQ4不同特征融合策略(如早期融合与晚期融合)对模型性能有何影响?
- RQ5当模型应用于域外场景或更大、更多样化的数据集时,其性能会下降到何种程度?
主要发现
- 所提出的具有分层融合的MLP(MLP_H+C)在测试集上达到最高性能,准确率达96.14%,AUC为0.9799。
- 仅使用视觉特征即达到93.08%的准确率,表明其在欺骗检测中起主导作用。
- 使用非静态词嵌入的文本特征达到90.24%的准确率,优于静态嵌入(80.16%)。
- 包含所有特征(非静态)的模型达到95.24%的准确率和0.9538的AUC,显著优于L-SVM和LR等基线模型。
- 单独使用微表情特征可实现76.19%的准确率,表明其在检测细微欺骗线索方面具有相关性。
- 与仅使用早期或晚期融合相比,采用分层融合(H+C)的模型收敛更快且性能更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。