QUICK REVIEW

[論文レビュー] A Deep Learning Approach for Multimodal Deception Detection

Gangeshwar Krishnamurthy, Navonil Majumder|arXiv (Cornell University)|Mar 1, 2018

Deception detection and forensic psychology被引用数 37

ひとこと要約

本稿では、実際の裁判映像から視覚的、言語的、音声的、微表情特徴を統合する深層学習モデルを提案し、欺瞞を検出する。単純ながらも効果的な階層的統合を施した多層パーセプトロン（MLP）を用いることで、121本の動画からなる現実的ではあるが小規模なデータセット上で、96.14%の正確性と0.9799のAUCを達成し、先行する最先端手法を顕著に上回った。

ABSTRACT

Automatic deception detection is an important task that has gained momentum in computational linguistics due to its potential applications. In this paper, we propose a simple yet tough to beat multi-modal neural model for deception detection. By combining features from different modalities such as video, audio, and text along with Micro-Expression features, we show that detecting deception in real life videos can be more accurate. Experimental results on a dataset of real-life deception videos show that our model outperforms existing techniques for deception detection with an accuracy of 96.14% and ROC-AUC of 0.9799.

研究の動機と目的

実生活のシナリオにおける欺瞞検出の正確性を向上させるために、動画、音声、テキスト、微表情からのマルチモーダル信号を活用すること。
従来の機械学習や手作業で特徴を抽出する手法よりも優れた性能を示す深層学習アプローチを開発すること。
限られたデータでも、効果的な特徴統合を施した単純なニューラルアーキテクチャが、最先端の性能を達成できることを示すこと。
特に視覚的および言語的特徴が、欺瞞検出にどの程度寄与しているかを調査すること。
今後のマルチモーダルな欺瞞検出分野における深層学習研究の強固なベースラインを提供すること。

提案手法

スパatiotemporalな視覚的特徴は、3D-CNNを用いて動画クリップから抽出する。
テキスト特徴は、静的および非静的単語埋め込みを併用したTextCNNモデルを用いて抽出する。
音声特徴は、OpenSMILEなどのオープンソースツールを用いて抽出し、プロソディックおよびスペクトル的特徴を捉える。
微表情特徴は、専用の顔面ランドマークおよびアクションユニット認識パイプラインを用いて検出する。
全モダリティからの特徴を統合するための多層パーセプトロン（MLP）を採用し、後期統合と初期統合戦略を組み合わせた階層的統合（H+C）を実装する。
モデルはクロスエントロピー損失を用いてエンドツーエンドで訓練され、Adamによる最適化とL2正則化を適用し、小規模なデータセットにおける過学習を軽減する。

実験結果

リサーチクエスチョン

RQ1テキスト、音声、動画、微表情といった複数のモダリティを統合する深層学習モデルは、従来の機械学習モデルよりも欺瞞検出において優れた性能を示せるか？
RQ2実際の裁判映像において、欺瞞検出の正確性に最も寄与しているモダリティは何か？
RQ3ニューラルネットワークを用いたエンドツーエンド学習は、手作業による特徴抽出に依存するモデルと比較して性能を向上させるか？
RQ4初期統合と後期統合の違いといった、さまざまな特徴統合戦略の性能はどのように異なるか？
RQ5モデルの性能は、ドメイン外のシナリオやより大規模で多様なデータセットに適用された際に、どの程度低下するか？

主な発見

提案された階層的統合付きMLP（MLP_H+C）が最高の性能を示し、テストセットで96.14%の正確性と0.9799のAUCを達成した。
視覚的特徴のみで93.08%の正確性を達成しており、欺瞞検出においてその支配的役割が示された。
非静的単語埋め込みを用いたテキスト特徴は90.24%の正確性を達成し、静的埋め込み（80.16%）を上回った。
全特徴（非静的）を組み合わせたモデルは95.24%の正確性と0.9538のAUCを達成し、L-SVM や LR といったベースラインモデルを顕著に上回った。
微表情特徴のみを用いた場合でも76.19%の正確性を示し、微細な欺瞞の兆候を検出する上でその関連性が示された。
階層的統合（H+C）を採用したモデルは、初期統合や後期統合のみを用いた場合よりも高速に収束し、より優れた性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。