QUICK REVIEW

[论文解读] A Deep Learning Approach for Multimodal Deception Detection

Gangeshwar Krishnamurthy, Navonil Majumder|arXiv (Cornell University)|Mar 1, 2018

Deception detection and forensic psychology被引用 37

一句话总结

本文提出了一种深度学习模型，通过融合真实庭审视频中的视觉、文本、音频和微表情特征，实现欺骗检测。采用一种简单但有效的多层感知机（MLP）进行分层融合，模型在包含121个视频的小型但真实的数据集上实现了96.14%的准确率和0.9799的AUC，显著优于先前的最先进方法。

ABSTRACT

Automatic deception detection is an important task that has gained momentum in computational linguistics due to its potential applications. In this paper, we propose a simple yet tough to beat multi-modal neural model for deception detection. By combining features from different modalities such as video, audio, and text along with Micro-Expression features, we show that detecting deception in real life videos can be more accurate. Experimental results on a dataset of real-life deception videos show that our model outperforms existing techniques for deception detection with an accuracy of 96.14% and ROC-AUC of 0.9799.

研究动机与目标

通过利用视频、音频、文本和微表情的多模态信号，提升真实场景下欺骗检测的准确率。
开发一种深度学习方法，使其在欺骗检测中优于传统机器学习和手工设计特征的方法。
证明即使在数据有限的情况下，简单的神经网络架构结合有效的特征融合，也能实现最先进性能。
探究不同模态（尤其是视觉和文本特征）对欺骗检测的相对贡献。
为未来基于深度学习的多模态欺骗检测研究提供一个稳健的基线。

提出的方法

使用3D-CNN从视频片段中提取时空视觉特征。
使用TextCNN模型结合静态和非静态词嵌入提取文本特征。
使用OpenSMILE等开源工具提取音频特征，捕捉语音和频谱特性。
通过专用的面部关键点检测和动作单元识别流程检测微表情特征。
使用多层感知机（MLP）融合所有模态的特征，采用分层融合（H+C）策略，结合晚期融合与早期融合方法。
模型采用交叉熵损失进行端到端训练，使用Adam优化，并应用L2正则化以缓解小数据集上的过拟合问题。

实验结果

研究问题

RQ1能否通过融合多种模态（文本、音频、视频、微表情）的深度学习模型，在欺骗检测中超越传统机器学习模型？
RQ2在真实庭审视频中，哪种模态对欺骗检测准确率的贡献最为显著？
RQ3与依赖人工特征工程的模型相比，采用神经网络的端到端学习是否能提升性能？
RQ4不同特征融合策略（如早期融合与晚期融合）对模型性能有何影响？
RQ5当模型应用于域外场景或更大、更多样化的数据集时，其性能会下降到何种程度？

主要发现

所提出的具有分层融合的MLP（MLP_H+C）在测试集上达到最高性能，准确率达96.14%，AUC为0.9799。
仅使用视觉特征即达到93.08%的准确率，表明其在欺骗检测中起主导作用。
使用非静态词嵌入的文本特征达到90.24%的准确率，优于静态嵌入（80.16%）。
包含所有特征（非静态）的模型达到95.24%的准确率和0.9538的AUC，显著优于L-SVM和LR等基线模型。
单独使用微表情特征可实现76.19%的准确率，表明其在检测细微欺骗线索方面具有相关性。
与仅使用早期或晚期融合相比，采用分层融合（H+C）的模型收敛更快且性能更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。