[论文解读] Morphset:Augmenting categorical emotion datasets with dimensional affect labels using face morphing
MorphSet 提出了一种基于人脸变形的框架,通过为分类的面部情绪数据集添加连续的维度情感标签(愉悦度和唤醒度),实现超过20倍的数据增强,同时确保标注的平衡性、真实性和高度一致性。该方法通过在顶点表情与中性面孔之间进行受控变形,为每位受试者合成数百种表情变化,相比现有嘈杂的野外数据集,在训练连续维度面部表情分析模型方面表现更优。
Emotion recognition and understanding is a vital component in human-machine interaction. Dimensional models of affect such as those using valence and arousal have advantages over traditional categorical ones due to the complexity of emotional states in humans. However, dimensional emotion annotations are difficult and expensive to collect, therefore they are not as prevalent in the affective computing community. To address these issues, we propose a method to generate synthetic images from existing categorical emotion datasets using face morphing as well as dimensional labels in the circumplex space with full control over the resulting sample distribution, while achieving augmentation factors of at least 20x or more.
研究动机与目标
- 解决情感计算中大规模、平衡、高质量的连续维度情感数据集稀缺的问题。
- 克服人工标注的连续愉悦度和唤醒度标签成本高且不一致的难题。
- 实现对分类情绪数据集向维度数据集的受控、真实的数据增强,并实现对表达分布的完全控制。
- 为监督学习生成视觉上令人信服、身份保持不变且具有高度一致的维度情感标注的面部图像。
提出的方法
- 利用 Dlib 提取的 68 个面部关键点进行人脸变形,生成合成面部表情。
- 应用两种变形类型:顶点到顶点(在典型表情之间插值)和中性到顶点(从中性到顶点的表情强度渐变)。
- 在愉悦度-唤醒度(VA)环形空间中使用极坐标,将表情映射为角度和强度。
- 通过以下公式计算连续愉悦度和唤醒度:V = I·cos(θ),A = I·sin(θ),其中 I 为强度,θ 为角度位置。
- 采用 15° 角度增量和 0.1 强度步长,确保 VA 空间内粒度精细且对称。
- 生成一个平衡且全覆盖的完整数据集,覆盖整个 VA 平面,经镜像和细粒度采样后最多可达 450,000 张图像。
实验结果
研究问题
- RQ1能否利用人脸变形,从一个小规模的分类数据集中系统性地生成覆盖愉悦度-唤醒度空间的逼真、多样的面部表情?
- RQ2与现有野外数据集相比,该框架生成的具有自动标注维度标签的合成数据集在训练连续维度 FEA 模型时是否表现更优?
- RQ3受控变形在实现对表达变化分布的完全控制的同时,能在多大程度上保持面部身份和真实感?
- RQ4与人工标注数据集相比,自动生成的愉悦度和唤醒度标注在一致性和可靠性方面如何?
主要发现
- MorphSet 实现了至少 20 倍的数据增强,每位受试者生成超过 55,000 张图像,经细粒度采样和镜像后最多可达 450,000 张。
- 在 MorphSet 上训练的 ResNet-18 模型在愉悦度和唤醒度上的 CCC 分别达到 0.915 和 0.821,显著优于 AffectNet(CCC 0.533 和 0.418)与 Aff-Wild(CCC 0.186 和 0.174)。
- MorphSet 上愉悦度和唤醒度的 RMSE 分别为 0.157 和 0.155,显著低于 AffectNet(0.427 和 0.390)与 Aff-Wild(0.407 和 0.266),表明标注一致性更高。
- 对采样图像的视觉检查表明,MorphSet 的表达异常值和不一致性远少于 AffectNet 和 Aff-Wild,面部表情与其分配的 VA 标签高度匹配。
- 该框架生成高度逼真、身份保持不变的合成图像,视觉上令人信服,适用于训练鲁棒的野外 FEA 系统。
- 该方法允许用户对 VA 空间中表达分布实现完全控制,可针对性地生成特定的表达变化和强度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。