[论文解读] Joint Action Unit localisation and intensity estimation through heatmap regression
本文提出一种基于单个Hourglass网络进行热图回归的联合面部动作单元(AU)定位与强度估计方法。通过使用与强度和位置相关的二维高斯函数回归每个AU的热图,该模型在BP4D数据集上实现了最先进性能,平均组内相关系数(ICC)达到0.68,表现出对关键点错位的鲁棒性,并且相比更深或针对每个AU的模型具有更高的效率。
This paper proposes a supervised learning approach to jointly perform facial Action Unit (AU) localisation and intensity estimation. Contrary to previous works that try to learn an unsupervised representation of the Action Unit regions, we propose to directly and jointly estimate all AU intensities through heatmap regression, along with the location in the face where they cause visible changes. Our approach aims to learn a pixel-wise regression function returning a score per AU, which indicates an AU intensity at a given spatial location. Heatmap regression then generates an image, or channel, per AU, in which each pixel indicates the corresponding AU intensity. To generate the ground-truth heatmaps for a target AU, the facial landmarks are first estimated, and a 2D Gaussian is drawn around the points where the AU is known to cause changes. The amplitude and size of the Gaussian is determined by the intensity of the AU. We show that using a single Hourglass network suffices to attain new state of the art results, demonstrating the effectiveness of such a simple approach. The use of heatmap regression allows learning of a shared representation between AUs without the need to rely on latent representations, as these are implicitly learned from the data. We validate the proposed approach on the BP4D dataset, showing a modest improvement on recent, complex, techniques, as well as robustness against misalignment errors. Code for testing and models will be available to download from https://github.com/ESanchezLozano/Action-Units-Heatmaps.
研究动机与目标
- 解决复杂、对齐敏感的深度学习模型在面部动作单元(AU)强度估计中的局限性。
- 在不依赖无监督或潜在表示的前提下,联合定位AU并估计其强度。
- 提高AU识别任务中对关键点误定位的泛化能力与鲁棒性。
- 在保持或提升性能的同时,降低模型复杂度,相比多网络或更深架构更具优势。
- 探究通过热图回归学习共享端到端表示是否能优于特定任务或针对每个AU的模型。
提出的方法
- 该方法使用热图回归预测每个AU的得分图,其中每个像素的值表示该空间位置上特定AU的强度。
- 通过在AU特定面部关键点位置放置二维高斯函数生成真实热图,其振幅与展宽由AU强度标签调节。
- 使用单个Hourglass网络同时回归所有AU的热图,学习AU之间的共享表示。
- 在网络端到端训练中,使用预测热图与真实热图之间的L2损失在BP4D数据集上进行优化。
- 首先估计面部关键点,并利用其将输入图像对齐至标准人脸形状后输入网络。
- 通过施加关键点扰动对模型进行测试,以评估其对错位的鲁棒性。
实验结果
研究问题
- RQ1一个轻量级的单一深度网络是否能通过热图回归联合回归AU定位与强度,从而超越复杂、多分支或更深的架构?
- RQ2与标准AU强度估计方法相比,使用强度调制的高斯函数进行热图回归是否能提升性能与鲁棒性?
- RQ3该模型在多大程度上对关键点误定位保持鲁棒性,这是AU识别中的常见失败模式?
- RQ4通过联合热图回归学习的共享表示是否能优于为每个AU单独训练的模型?
- RQ5真实热图生成方式的选择(如基于高斯函数)对AU估计任务最终性能有何影响?
主要发现
- 所提方法在BP4D数据集上实现了0.68的平均ICC,优于当前最先进方法,包括ResNet-18(ICC 0.64)和2DC(ICC 0.66)。
- 与为每个AU单独训练一个Hourglass网络相比,性能提升3%,同时计算成本仅为后者的五分之一。
- 在关键点噪声标准差达13像素以内时,网络性能保持稳定,仅在超过该阈值后明显下降。
- 即使在显著的关键点扰动(最高达55像素)下,模型在AU定位方面仍表现出韧性,如图5所示热图激活正确。
- 该方法表明,使用热图回归的简单单网络架构可在AU强度估计中超越更复杂的模型。
- 在热图生成中使用可变尺寸的高斯函数能有效编码强度信息,使网络能够学习到空间与强度感知的表示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。