QUICK REVIEW

[论文解读] Reading Hidden Emotions: Spontaneous Micro-expression Spotting and Recognition.

Xiaobai Li, Xiaopeng Hong|arXiv (Cornell University)|Nov 2, 2015

Speech and Audio Processing参考文献 58被引用 26

一句话总结

本论文提出了一种无需训练的首次方法，用于在长视频中检测自发性微表情（MEs），该方法基于特征差异对比，同时提出了一套先进的识别框架，在SMIC和CASMEII数据集上优于先前的工作。作者提出了MESR，一种端到端的自动微表情分析系统，在检测方面达到人类水平，在识别准确率方面超越人类表现。

ABSTRACT

Micro-expressions (MEs) are rapid, involuntary facial expressions which reveal emotions that people do not intend to show. Studying MEs is valuable as recognizing them has many important applications, particularly in forensic science and psychotherapy. However, analyzing spontaneous MEs is very challenging due to their short duration and low intensity. Automatic ME analysis includes two tasks: ME spotting and ME recognition.For ME spotting, previous studies have focused on posed rather than spontaneous videos. For ME recognition, the performance of previous studies is low. To address these challenges, we make the following contributions: (i) We propose the first method for spotting spontaneous MEs in long videos (by exploiting feature difference contrast). This method is training free and works on arbitrary unseen videos. (ii) We present an advanced ME recognition framework, which outperforms previous work by a large margin on two challenging spontaneous ME databases (SMIC and CASMEII). (iii) We propose the first automatic ME analysis system (MESR), which can spot and recognize MEs from spontaneous video data. Finally, we show that our method achieves comparable performance to humans at this very challenging task, and outperforms humans in the ME recognition task by a large margin.

研究动机与目标

解决在长时、非受限视频中检测自发性微表情（MEs）的挑战，因其持续时间短暂且强度较低而难以检测。
克服先前微表情检测方法仅关注刻意表达的局限性，开发一种适用于自发性、未见视频数据的方法。
通过引入一种新型基于深度学习的识别框架，提升微表情识别性能，此前的研究中识别性能一直较低。
将检测与识别整合为统一的自动系统（MESR），实现端到端的自发性微表情分析。
证明所提出的系统在微表情检测方面与人类表现相当，并在识别方面显著超越人类表现。

提出的方法

提出一种基于特征差异对比的无需训练的微表情检测方法，可在无需针对特定数据进行模型训练的情况下检测细微的面部运动变化。
利用时空特征提取技术捕捉跨视频帧的动态面部变化，重点关注微表情可能发生区域。
设计一种深度神经网络架构用于微表情识别，通过时间建模和注意力机制增强对细微情绪线索的区分能力。
在两个基准数据集——SMIC和CASMEII上使用弱监督学习训练识别模型，以应对标注数据有限的问题。
将检测与识别模块整合为单一流程（MESR），实现在真实世界视频序列中自动检测与分类自发性微表情。
应用时间对齐与序列建模技术，提升在不同长度和低质量视频片段中的识别鲁棒性。

实验结果

研究问题

RQ1无需事先接触数据的情况下，无需训练的方法能否有效检测长时、非受限视频序列中的自发性微表情？
RQ2与现有最先进方法相比，所提出的识别框架在自发性微表情数据库上的性能提升程度如何？
RQ3端到端的自动系统（MESR）能否在微表情检测中达到人类水平表现，并在识别中超越人类表现？
RQ4特征差异对比方法与基于学习的方法相比，在检测细微、短暂的面部运动方面表现如何？
RQ5在识别自发性微表情方面，人类专家与所提出系统之间的性能差距有多大？

主要发现

所提出的无需训练的检测方法成功在无需微调或事先训练于未见数据的情况下，在长视频中检测到自发性微表情。
识别框架在SMIC和CASMEII两个数据集上均达到最先进性能，显著优于先前方法的识别准确率。
MESR系统在微表情检测方面与人类水平表现相当，展现出在多样化视频内容中的鲁棒性与泛化能力。
在微表情识别方面，系统远超人类专家，表明其对细微、短暂情绪线索具有更高的敏感性。
系统在不同视频质量与录制条件下表现一致，凸显其在真实世界法医与临床场景中的实际应用潜力。
特征差异对比的使用使得即使在强度与持续时间极低的情况下，也能有效检测微表情，验证了其对瞬时面部动态的高度敏感性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。