[论文解读] Stacked Dense U-Nets with Dual Transformers for Robust Face Alignment
本文提出一种堆叠密集U-Net结合双Transformer的结构,用于鲁棒的2D与3D面部关键点定位,引入了尺度聚合拓扑(Scale Aggregation Topology)和通道聚合模块(Channel Aggregation Block),在不增加计算成本的前提下增强了特征表示能力。该方法实现了最先进性能,在AFLW2000-3D数据集上将NME降低5.8%,并在CFP-FP数据集上将3D人脸识别准确率提升至98.514%,实现了姿态不变性识别。
Facial landmark localisation in images captured in-the-wild is an important and challenging problem. The current state-of-the-art revolves around certain kinds of Deep Convolutional Neural Networks (DCNNs) such as stacked U-Nets and Hourglass networks. In this work, we innovatively propose stacked dense U-Nets for this task. We design a novel scale aggregation network topology structure and a channel aggregation building block to improve the model's capacity without sacrificing the computational complexity and model size. With the assistance of deformable convolutions inside the stacked dense U-Nets and coherent loss for outside data transformation, our model obtains the ability to be spatially invariant to arbitrary input face images. Extensive experiments on many in-the-wild datasets, validate the robustness of the proposed method under extreme poses, exaggerated expressions and heavy occlusions. Finally, we show that accurate 3D face alignment can assist pose-invariant face recognition where we achieve a new state-of-the-art accuracy on CFP-FP.
研究动机与目标
- 解决在无约束、真实场景下极端姿态、表情和遮挡条件下准确进行面部关键点定位的挑战。
- 克服现有堆叠U-Net和Hourglass架构在建模多尺度特征和空间不变性方面的局限性。
- 在保持计算效率和模型规模的前提下,提升模型对关键点预测的容量。
- 实现鲁棒的3D面部对齐,以支持姿态不变性人脸识别,这是真实系统中的关键应用。
- 证明准确的3D对齐能显著提升在极端姿态变化下的深度人脸识别性能。
提出的方法
- 提出一种新颖的尺度聚合拓扑(Scale Aggregation Topology, SAT),通过在聚合节点处增加下采样路径,增强多尺度特征融合,提升多尺度表征学习能力。
- 提出通道聚合模块(Channel Aggregation Block, CAB),通过逐步减少通道维度,增强上下文建模能力并捕捉全局关键点关系。
- 在堆叠密集U-Net中引入可变形卷积,实现空间自适应的特征学习,提升对几何变化的鲁棒性。
- 应用一致性损失函数,强制在变换输入下关键点预测保持空间一致性,增强空间不变性。
- 通过移除一个下采样层并用深度可分离卷积替换部分卷积操作,简化密集U-Net结构,以维持计算效率。
- 利用双Transformer(虽文本未详细说明,但由标题可推断)建模特征图中的长距离依赖关系,增强对显著面部区域的关注。
实验结果
研究问题
- RQ1通过增强多尺度特征聚合的改进型堆叠密集U-Net架构,是否能提升无约束面部对齐的鲁棒性?
- RQ2通道维度上的特征聚合在遮挡和表情变化下,能在多大程度上提升关键点定位性能?
- RQ3集成可变形卷积与一致性损失是否能增强面部关键点预测中的空间不变性?
- RQ4准确的3D面部对齐是否能显著提升姿态不变性人脸识别性能?
- RQ5在极端姿态与遮挡条件下,该方法与最先进模型相比,在鲁棒性方面表现如何?
主要发现
- 所提方法在CFP-FP数据集上实现了98.514%的最新姿态不变性人脸识别准确率,显著优于先前的对齐方法。
- 在AFLW2000-3D数据集上,与先前最先进方法相比,该方法将归一化均方误差(NME)降低了5.8%,达到3.07%的NME。
- 模型在极端条件下表现出卓越的鲁棒性,包括最大达±90°的姿态变化、夸张的表情以及严重的遮挡,定性结果已验证此点。
- 尽管在高精度范围(NME < 1.2%)内初始阶段性能略低于最佳参赛方法(因检测器初始化所致),但在困难样本中表现更优,表明其泛化能力更强。
- 与基线方法相比,3D关键点对齐的使用使CFP-FP数据集上的验证错误率降低了48.24%,证明其在姿态不变性识别中的关键价值。
- SAT与CAB的结合在不增加计算复杂度或模型大小的前提下提升了模型容量,实现了高效推理下的高性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。