Skip to main content
QUICK REVIEW

[论文解读] GenLie: A Global-Enhanced Lie Detection Network under Sparsity and Semantic Interference

Z. H. Zhang, Yao Liu|arXiv (Cornell University)|Mar 14, 2026
Deception detection and forensic psychology被引用 0
一句话总结

GenLie 引入一个局部–全局框架,通过对抗去相关和三元组损失学习稀疏且具有判别性的线索,同时抑制身份相关噪声,在三个基准数据集上实现了最先进的结果。

ABSTRACT

Video-based lie detection aims to identify deceptive behaviors from visual cues. Despite recent progress, its core challenge lies in learning sparse yet discriminative representations. Deceptive signals are typically subtle and short-lived, easily overwhelmed by redundant information, while individual and contextual variations introduce strong identity-related noise. To address this issue, we propose GenLie, a Global-Enhanced Lie Detection Network that performs local feature modeling under global supervision. Specifically, sparse and subtle deceptive cues are captured at the local level, while global supervision and optimization ensure robust and discriminative representations by suppressing identity-related noise. Experiments on three public datasets, covering both high- and low-stakes scenarios, show that GenLie consistently outperforms state-of-the-art methods. Source code is available at https://github.com/AliasDictusZ1/GenLie.

研究动机与目标

  • 研究从视频中的细微、稀疏视觉线索中实现鲁棒的欺骗检测的必要性。
  • 提出局部–全球建模策略,在提取稀疏线索的同时减少身份和情境噪声。
  • 开发一个端到端框架,具备冗余感知采样、任务驱动再嵌入、对抗去相关以及判别损失。
  • 在低风险和高风险的欺骗数据集上展示最先进的性能。

提出的方法

  • 将视频分割为等长片段,并在每个片段中选择前K个信息量最大的帧以抑制冗余。
  • 使用冻结的 VideoMAEv2 编码器提取片段级特征,并通过轻量级的 MLP 获得全局视频嵌入。
  • 应用对抗式说话人去相关,通过基于 GRL 的辅助分类器获得身份不变的表示。
  • 在视频层面纳入三元组损失,以强化同类内的紧凑性和跨类的分离性。
  • 以总目标 L_total = L_cls + alpha L_id + beta L_tri 进行联合训练,以平衡判别性和去偏。
Fig. 1 : Core challenge in video-based lie detection: subtle and transient cues are often overwhelmed by noise and contextual bias.
Fig. 1 : Core challenge in video-based lie detection: subtle and transient cues are often overwhelmed by noise and contextual bias.

实验结果

研究问题

  • RQ1局部–全球建模方法是否能在视频欺骗检测中有效捕捉稀疏的欺骗线索,同时降低身份相关噪声?
  • RQ2对抗性说话人去相关是否在不牺牲欺骗判别性的前提下提升跨说话人泛化?
  • RQ3视频层面的三元组损失是否有利于在欺骗标签和说话人之间塑造更具判别力的嵌入空间?
  • RQ4哪种帧选择策略在具有不同线索显著性的跨数据集上能提供最鲁棒的性能?

主要发现

MethodMDPE_F1MDPE_ACCMDPE_AUCReal-Life Trial_F1Real-Life Trial_ACCReal-Life Trial_AUCSEUMLD_F1SEUMLD_ACCSEUMLD_AUC
GenLie38.9763.0159.9193.4493.3998.9642.3964.1759.15
w/o TS24.9560.1053.4938.5957.9551.9240.8561.2956.83
w/o F_SR18.1060.6258.1035.8460.3655.03n/an/an/a
w/o L_id34.0662.2859.7836.7957.0653.55n/an/an/a
w/o L_tri25.7362.9058.0740.8561.2956.83n/an/an/a
  • GenLie 在三个欺骗基准测试(MDPE、Real-Life Trial、SEUMLD)上实现了最先进的性能。
  • 消融实验显示语义再嵌入对性能至关重要,且说话人去相关在 Real-Life Trial 数据集上贡献显著。
  • 均匀帧采样相比启发式采样策略提供更稳健的性能。
  • 时序分段有助于保留稀疏线索,且三元组损失提升了判别性。
  • GenLie 在低风险和高风险设置下均表现出色,展现对身份的良好泛化能力。
Fig. 2 : Architecture of the proposed GenLie framework.
Fig. 2 : Architecture of the proposed GenLie framework.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。