QUICK REVIEW

[论文解读] Prior Aided Streaming Network for Multi-task Affective Recognitionat the 2nd ABAW2 Competition

Wei Zhang, Zunhu Guo|arXiv (Cornell University)|Jul 8, 2021

Emotion and Mood Recognition参考文献 27被引用 24

一句话总结

该论文提出了一种用于 ABAW2 竞赛中多任务情感识别的先验辅助流式网络，通过按流式顺序（AU → CE → VA）处理类别化情绪（CE）、动作单元（AU）和效价-唤醒度（VA）之间的分层关系，利用身份不变的面部表情嵌入作为先验知识，在 Aff-Wild2 数据集上实现了最先进性能，AU 的 F1 分数为 0.742，CE 的 F1 分数为 0.790，VA 的 CCC 为 0.495。

ABSTRACT

Automatic affective recognition has been an important research topic in human computer interaction (HCI) area. With recent development of deep learning techniques and large scale in-the-wild annotated datasets, the facial emotion analysis is now aimed at challenges in the real world settings. In this paper, we introduce our submission to the 2nd Affective Behavior Analysis in-the-wild (ABAW2) Competition. In dealing with different emotion representations, including Categorical Emotions (CE), Action Units (AU), and Valence Arousal (VA), we propose a multi-task streaming network by a heuristic that the three representations are intrinsically associated with each other. Besides, we leverage an advanced facial expression embedding as prior knowledge, which is capable of capturing identity-invariant expression features while preserving the expression similarities, to aid the down-streaming recognition tasks. The extensive quantitative evaluations as well as ablation studies on the Aff-Wild2 dataset prove the effectiveness of our proposed prior aided streaming network approach.

研究动机与目标

解决在真实世界、野生设置下，具有多样化情感表达的多任务情感识别挑战。
通过利用 CE、AU 和 VA 之间的内在分层关系，克服将它们视为独立任务的局限性。
通过引入身份不变的面部表情嵌入作为先验知识，提升模型泛化能力和性能。
设计一种流式网络架构，按顺序处理情感表示，以增强特征迁移和任务一致性。
在 Aff-Wild2 基准上实现多任务情感识别的最先进性能。

提出的方法

设计一种流式网络，基于语义层次，按顺序处理面部表情：首先进行 AU 检测，然后进行 CE 分类，最后进行 VA 回归。
使用基于三元组的面部表情嵌入模型作为主干网络，提取身份不变的细粒度表情特征，以保留表情之间的相似性。
将中间特征（如 AU 特征与 CE 特征）拼接，形成高层任务的联合表示，实现跨任务的特征优化。
应用任务特定的损失函数：CE 使用 Softmax 损失，VA 回归使用皮尔逊等级相关系数（CCC），并通过加权总损失处理缺失标签。
使用外部数据集（BP4D、BP4D+、DFEW、AffectNet）进行数据增强，并保持一致的类别映射，以提升泛化能力。
利用已知的 AU-CE 映射关系，为缺失的 CE 标注生成伪标签，以缓解数据不平衡并减少过拟合。

实验结果

研究问题

RQ1如何利用不同情感表示（AU、CE、VA）之间的分层关系来提升多任务情感识别性能？
RQ2将预训练的身份不变面部表情嵌入作为先验知识，能在多大程度上提升识别性能？
RQ3按顺序、分层处理的流式网络架构是否优于标准多任务学习中并行头的结构？
RQ4基于 AU-CE 相关性的伪标签方法是否能有效提升在不完整或不平衡数据集上的模型鲁棒性？
RQ5每个架构组件（先验模型、流式设计）对 Aff-Wild2 基准最终性能的贡献如何？

主要发现

所提出的先验辅助流式网络在官方验证集上实现了 AU 检测的测试 F1 分数为 0.742，CE 分类的 F1 分数为 0.790，VA 回归的 CCC 为 0.495。
消融实验表明，移除先验模型后性能下降至 AU 的 0.464、CE 的 0.718 和 VA 的 0.422，证实其在泛化中的关键作用。
移除流式结构后，AU 性能下降至 0.677，CE 性能也下降至 0.677，表明顺序处理有助于提升特征一致性。
该模型在所有赛道上均优于基线 [12]，AU F1 分数相对提升 20.6%，CE TAcc 相对提升 18.6%。
五折交叉验证结果证实了性能的持续提升，最高折次达到 AU 的 0.772、CE 的 0.783 和 VA 的 0.621 CCC。
对缺失 CE 标注使用伪标签的方法有助于缓解数据不平衡，并在低资源场景下显著提升泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。