[论文解读] CAKE: Compact and Accurate K-dimensional representation of Emotion
本文提出CAKE,一种通过跨多个数据集的深度神经网络学习得到的3D紧凑且精确的情绪表征。结果表明,结合唤醒度、效价和支配度的3D空间在情绪识别上优于2D表征,同时显示深度神经网络隐式学习到了类似唤醒度-效价的结构。
Numerous models describing the human emotional states have been built by the psychology community. Alongside, Deep Neural Networks (DNN) are reaching excellent performances and are becoming interesting features extraction tools in many computer vision tasks.Inspired by works from the psychology community, we first study the link between the compact two-dimensional representation of the emotion known as arousal-valence, and discrete emotion classes (e.g. anger, happiness, sadness, etc.) used in the computer vision community. It enables to assess the benefits -- in terms of discrete emotion inference -- of adding an extra dimension to arousal-valence (usually named dominance). Building on these observations, we propose CAKE, a 3-dimensional representation of emotion learned in a multi-domain fashion, achieving accurate emotion recognition on several public datasets. Moreover, we visualize how emotions boundaries are organized inside DNN representations and show that DNNs are implicitly learning arousal-valence-like descriptions of emotions. Finally, we use the CAKE representation to compare the quality of the annotations of different public datasets.
研究动机与目标
- 研究在面部表情识别中,紧凑且精确的情绪表征的最优维度数。
- 弥合心理学情绪模型(如唤醒度-效价、支配度)与深度学习表征之间的鸿沟。
- 开发一种多领域、紧凑的3D情绪嵌入表征(CAKE),使其在公开数据集中具有泛化能力。
- 评估不同数据集中学习到的情绪表征的一致性与语义质量。
- 利用学习到的CAKE表征,对公开数据集的标注质量进行比较。
提出的方法
- 作者在三个公开数据集(AffectNet、SFEW和RAF)上以多领域方式训练深度神经网络。
- 该模型学习了一个受心理学环形模型启发的3D紧凑嵌入空间,包含唤醒度、效价和支配度三个维度。
- 通过多任务学习目标优化表征,同时预测离散情绪、唤醒度和效价。
- 提出一种可视化框架,将学习到的特征映射到2D和3D空间,以实现对情绪聚类组织的定性分析。
- 采用归一化的3D表征(CAKE-3-Norm)以确保不同数据集间尺度一致并可比较。
- 在分类准确率和特征一致性方面,将CAKE与2D唤醒度-效价(AV)和2D CAKE(CAKE-2)表征进行比较。
实验结果
研究问题
- RQ1在深度神经网络中,为实现紧凑且精确的面部情绪表征,需要多少维度才足够?
- RQ2深度神经网络在多大程度上隐式学习到了类似唤醒度-效价的情绪表征?
- RQ3与2D表征相比,增加第三个维度(如支配度)在多大程度上提升了情绪识别性能?
- RQ4在标注质量各异的不同公开数据集中,学习到的情绪表征在多大程度上保持一致?
- RQ5CAKE表征能否用于定性评估和比较不同数据集间的情绪标注质量?
主要发现
- 尽管采用紧凑的3D表征,CAKE在情绪识别中仍表现出具有竞争力的性能,且在某些设置下优于更大的模型。
- 3D CAKE表征在AffectNet、SFEW和RAF数据集中均显示出强烈的情绪聚类组织一致性,表明其特征学习具有鲁棒性和泛化能力。
- 训练用于情绪分类的深度神经网络隐式学习到了类似唤醒度-效价的结构,这由AV与CAKE-2表征之间的相似性所证实。
- 中性情绪类别在表征空间中始终位于原点,支持其作为低强度基线的作用。
- 可视化结果揭示了数据集间的差异,尤其在SFEW中,厌恶和恐惧类别代表性不足,凸显了标注的一致性问题。
- 与未归一化的变体相比,CAKE-3-Norm提供了更均衡且可解释性更强的3D空间,提升了跨数据集的可比性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。