Skip to main content
QUICK REVIEW

[论文解读] Weakly-Supervised Attention and Relation Learning for Facial Action Unit Detection

Zhiwen Shao, Zhilei Liu|arXiv (Cornell University)|Aug 10, 2018
Emotion and Mood Recognition被引用 2
一句话总结

该论文提出了一种用于面部动作单元(AU)检测的端到端弱监督深度学习框架,联合学习通道级和空间注意力机制,以及AU之间的像素级关系,实现在无需边界框或热图的情况下自适应地提取AU特定特征。该方法在BP4D、DISFA、FERA 2015和BP4D+基准上,无论是在AU检测还是强度估计任务中,均取得了最先进性能,即使在遮挡和大姿态变化条件下也表现优异。

ABSTRACT

Attention mechanism has recently attracted increasing attentions in the field of facial action unit (AU) detection. By finding the region of interest of each AU with the attention mechanism, AU-related local features can be captured. Most of the existing attention based AU detection works use prior knowledge to predefine fixed attentions or refine the predefined attentions within a small range, which limits their capacity to model various AUs. In this paper, we propose an end-to-end deep learning based attention and relation learning framework for AU detection with only AU labels, which has not been explored before. In particular, multi-scale features shared by each AU are learned firstly, and then both channel-wise and spatial attentions are adaptively learned to select and extract AU-related local features. Moreover, pixel-level relations for AUs are further captured to refine spatial attentions so as to extract more relevant local features. Without changing the network architecture, our framework can be easily extended for AU intensity estimation. Extensive experiments show that our framework (i) soundly outperforms the state-of-the-art methods for both AU detection and AU intensity estimation on the challenging BP4D, DISFA, FERA 2015 and BP4D+ benchmarks, (ii) can adaptively capture the correlated regions of each AU, and (iii) also works well under severe occlusions and large poses.

研究动机与目标

  • 解决现有基于注意力的AU检测方法依赖于固定或窄范围细化注意力图的局限性。
  • 仅使用AU级别标注,实现端到端学习注意力机制与AU间关系,无需边界框或热图。
  • 通过联合建模通道级注意力与空间注意力,以及像素级AU关系,提升特征相关性与检测鲁棒性。
  • 在不改变网络架构的前提下,将框架扩展至AU强度估计。
  • 在遮挡和大头部姿态等挑战性条件下实现卓越性能。

提出的方法

  • 首先,使用共享主干网络从输入图像中提取多尺度特征。
  • 联合学习通道级和空间注意力机制,以自适应地突出特征图中的AU相关特征。
  • 建模AU之间的像素级关系,以优化空间注意力图,提升相关面部区域的定位能力。
  • 注意力学习过程为端到端可微,仅使用AU二值标签进行训练。
  • 通过修改最终回归头,而无需改变网络架构,将同一框架扩展至AU强度估计。
  • 该方法利用自注意力机制,在弱监督设置下捕捉长距离依赖关系与AU间相关性。

实验结果

研究问题

  • RQ1弱监督框架能否联合学习注意力机制与AU间关系,实现在无边界框或热图监督下的AU检测性能提升?
  • RQ2所提出的注意力与关系学习机制在捕捉AU特定相关面部区域方面,相较于固定或预定义注意力图,效果如何?
  • RQ3像素级AU关系的整合在多大程度上提升了空间注意力与检测准确率?
  • RQ4该框架是否可在不修改架构的前提下有效应用于AU强度估计?
  • RQ5该方法在严重遮挡和大头部姿态等挑战性条件下的鲁棒性如何?

主要发现

  • 所提方法在BP4D、DISFA、FERA 2015和BP4D+基准上,无论是AU检测还是AU强度估计,均达到最先进性能。
  • 模型自适应地学习注意力图,突出AU特定面部区域,相比先前方法展现出更优的定位能力。
  • 像素级关系的整合显著增强了空间注意力,实现了更相关的特征提取。
  • 该框架在大姿态变化和严重遮挡条件下具有良好泛化能力,性能保持稳定。
  • 在所有测试数据集上均实现一致的性能提升,证实了其鲁棒性与泛化能力。
  • 该框架可无需架构修改地扩展至AU强度估计,同时保持高性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。