[论文解读] Face Behavior a la carte: Expressions, Affect and Action Units in a Single Network
作者提出 FaceBehaviorNet,这是一个端到端训练的整体多任务网络,能够联合预测七种基本情感、17个动作单位,以及来自野外数据的情绪价-唤值,并通过任务耦合策略相比单任务模型显示出性能提升。
Automatic facial behavior analysis has a long history of studies in the intersection of computer vision, physiology and psychology. However it is only recently, with the collection of large-scale datasets and powerful machine learning methods such as deep neural networks, that automatic facial behavior analysis started to thrive. Three of its iconic tasks are automatic recognition of basic expressions (e.g. happy, sad, surprised), estimation of continuous emotions (e.g., valence and arousal), and detection of facial action units (activations of e.g. upper/inner eyebrows, nose wrinkles). Up until now these tasks have been mostly studied independently collecting a dataset for the task. We present the first and the largest study of all facial behaviour tasks learned jointly in a single multi-task, multi-domain and multi-label network, which we call FaceBehaviorNet. For this we utilize all publicly available datasets in the community (around 5M images) that study facial behaviour tasks in-the-wild. We demonstrate that training jointly an end-to-end network for all tasks has consistently better performance than training each of the single-task networks. Furthermore, we propose two simple strategies for coupling the tasks during training, co-annotation and distribution matching, and show the advantages of this approach. Finally we show that FaceBehaviorNet has learned features that encapsulate all aspects of facial behaviour, and can be successfully applied to perform tasks (compound emotion recognition) beyond the ones that it has been trained in a zero- and few-shot learning setting.
研究动机与目标
- 在非同质的野外数据下,提出一个面部行为分析的整体框架,将表情、AUs 与连续情感联系起来。
- 提出实用的耦合策略(共注释和分布匹配)以在训练中利用任务相关性。
- 在大规模、部分重叠的数据集上对 FaceBehaviorNet 进行端到端训练,以提升各任务的表现。
- 展示学习到的特征在零样本和少样本设置下对复合表情的泛化能力。
提出的方法
- 定义一个多任务目标,结合情感分类、AU 检测和情绪价-唤值回归。
- 引入耦合策略:共注释(为预测的情感标签强制原型/观测的 AU)和分布匹配(将 AU 分布与情感条件期望对齐),以及变体(软共注释、分布匹配及两者的组合)。
- 基于 VGG-FACE 的模型架构,具有共享特征和针对 7 种情感、17 个 AU 及 VA 输出的任务专用头。
- 在三个数据流(VA-Set、AU-Set、EXPR-Set)上进行端到端优化,采用对齐的批处理以适应部分注释。
- 将认知研究中的任务相关性表和经验的 Aff-Wild2 注释纳入以指导耦合。
- 在多个人类野外数据库上对比最先进的单任务网络和基线进行评估。
实验结果
研究问题
- RQ1一个单一的整体网络是否能在表达、AU 和情绪价-唤值方面超过独立训练的单任务模型?
- RQ2耦合策略(共注释和分布匹配)是否提升跨任务性能和总体鲁棒性?
- RQ3所学习的特征在零样本和少样本情景下对复合表达的泛化能力如何?
- RQ4利用非同质的任务相关性和部分注释是否有助于从大型、多样化数据集中学习?
主要发现
- 在各数据库中,使用耦合损失的 FaceBehaviorNet 持续优于无耦合基线。
- 软共注释和分布匹配共同带来最佳的平均提升,平均性能超过单一策略消融的 2% 以上。
- 联合作业在情绪价-唤值、基本表情和 AU 方面,在所有评估数据库上均优于单任务网络。
- 在使用耦合损失时,模型在 Aff-Wild、AffectNet、RAF-DB、EmotioNet、DISFA、BP4D 和 BP4D+ 上达到与最先进方法相当或更好的性能。
- 零样本和少样本分析表明,FaceBehaviorNet 学到的特征具有可迁移性,能够在有限或无需额外训练数据的情况下支持复合表情。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。