QUICK REVIEW

[论文解读] Pose-Invariant Face Alignment with a Single CNN

Amin Jourabloo, Mao Ye|arXiv (Cornell University)|Jul 19, 2017

Face recognition and analysis参考文献 45被引用 26

一句话总结

本文提出一种带有可微分可视化层的单一卷积神经网络（CNN），用于姿态不变的人脸对齐，支持端到端训练，消除了对手工设计特征或分阶段训练的依赖。该方法在多个数据集上实现了最先进（SOTA）的精度，同时相比级联CNN方法将训练时间减少了50%以上。

ABSTRACT

Face alignment has witnessed substantial progress in the last decade. One of the recent focuses has been aligning a dense 3D face shape to face images with large head poses. The dominant technology used is based on the cascade of regressors, e.g., CNN, which has shown promising results. Nonetheless, the cascade of CNNs suffers from several drawbacks, e.g., lack of end-to-end training, hand-crafted features and slow training speed. To address these issues, we propose a new layer, named visualization layer, that can be integrated into the CNN architecture and enables joint optimization with different loss functions. Extensive evaluation of the proposed method on multiple datasets demonstrates state-of-the-art accuracy, while reducing the training time by more than half compared to the typical cascade of CNNs. In addition, we compare multiple CNN architectures with the visualization layer to further demonstrate the advantage of its utilization.

研究动机与目标

解决级联CNN在大姿态人脸对齐中的局限性，包括缺乏端到端训练、依赖手工设计特征以及训练速度慢的问题。
通过引入可微分可视化层，重建三维人脸形状并合成二维图像，实现各阶段的联合优化。
通过消除中间特征提取步骤并支持反向传播通过整个网络，减少训练时间并提升特征学习深度。
在基准数据集上展示优于现有级联CNN方法的性能与效率。

提出的方法

提出一种新型可视化层，从估计参数重建三维人脸形状，并利用可见顶点的表面法线合成二维图像。
设计可视化层使其可微分，从而允许梯度从后序模块反向传播至早期模块，实现端到端训练。
应用空间掩码对像素值进行归一化，区分人脸中心区域与轮廓区域，提升姿态不变性。
将可视化层集成到由多个可视化模块组成的CNN架构中，每个模块对前一模块的特征进行优化。
以表面法线作为可视化层的输入，受其在三维人脸识别中成功应用的启发，用于编码人脸与相机之间的相对姿态。
使用多种损失函数对整个网络进行端到端训练，实现所有参数的联合优化。

实验结果

研究问题

RQ1带有可微分可视化层的单一CNN是否能在大姿态人脸对齐任务中表现优于级联CNN？
RQ2可视化层是否能实现端到端训练并消除对手工设计特征提取的需求？
RQ3空间掩码的使用如何影响姿态不变性与模型性能？
RQ4所提方法是否能在保持或提升精度的同时，显著减少训练时间？
RQ5在深度与阶段数方面，可视化模块与层的最佳配置是什么？

主要发现

所提方法在AFLW数据集上实现了最先进性能，平均归一化均方误差（NME）为4.45%，优于以往的级联CNN方法。
与最先进级联方法[18]相比，训练时间减少50%以上，仅需2.5天（33个周期）完成，而[18]需7天。
在Titan X GPU上，测试速度达到4.3 FPS，显著快于[18]的0.6 FPS。
使用更复杂的掩码（Mask 2）并未提升性能，表明原始掩码已提供充分信息。
将可视化模块数量从3个增至6个（每模块2层），NME从4.83%提升至4.45%，表明更深的网络结构能获得更好结果。
可视化层实现了无需手工特征的高效特征学习，且由于端到端优化，网络收敛更快。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。