[论文解读] Joint Multi-view Face Alignment in the Wild
本文提出了一种新颖的联合多视角卷积网络——多视角沙漏模型(MHM),可在非受限环境中同时检测人脸并定位大量面部关键点(半正面人脸68个,侧脸39个),在极端姿态变化下表现优异。通过采用端到端的粗到细策略,并联合训练正面与侧脸数据,该方法在人脸对齐、可变形人脸跟踪(300VW)以及人脸检测(FDDB、MALF)任务中均达到最先进性能,显著提升了高精度条件下的查全率。
The de facto algorithm for facial landmark estimation involves running a face detector with a subsequent deformable model fitting on the bounding box. This encompasses two basic problems: i) the detection and deformable fitting steps are performed independently, while the detector might not provide best-suited initialisation for the fitting step, ii) the face appearance varies hugely across different poses, which makes the deformable face fitting very challenging and thus distinct models have to be used (\eg, one for profile and one for frontal faces). In this work, we propose the first, to the best of our knowledge, joint multi-view convolutional network to handle large pose variations across faces in-the-wild, and elegantly bridge face detection and facial landmark localisation tasks. Existing joint face detection and landmark localisation methods focus only on a very small set of landmarks. By contrast, our method can detect and align a large number of landmarks for semi-frontal (68 landmarks) and profile (39 landmarks) faces. We evaluate our model on a plethora of datasets including standard static image datasets such as IBUG, 300W, COFW, and the latest Menpo Benchmark for both semi-frontal and profile faces. Significant improvement over state-of-the-art methods on deformable face tracking is witnessed on 300VW benchmark. We also demonstrate state-of-the-art results for face detection on FDDB and MALF datasets.
研究动机与目标
- 为解决独立人脸检测与关键点拟合方法存在的局限性,后者常导致初始化不佳且在姿态变化下泛化能力差。
- 克服侧脸与半正面人脸关键点标注不一致的问题,特别是对自遮挡区域的标注难题。
- 开发一种统一的深度学习框架,联合估计大范围姿态变化下的面部关键点,避免使用视图专用模型并降低计算成本。
- 仅使用公开可用的训练数据,在人脸检测与面部关键点定位任务中均实现最先进性能。
- 通过利用联合多视角响应图,提升人脸检测中对误报的抑制能力,从而提高高精度条件下的查全率。
提出的方法
- 采用粗到细的网络结构:首先,通过少量关键点粗略估计人脸形状。
- 在去除相似性变换(平移、旋转、缩放)后,进行细化步骤以估计密集的面部关键点。
- 提出一种新型多视角沙漏模型(MHM),在单一网络中联合回归半正面与侧脸的关键点。
- MHM利用正面与侧脸形状之间的结构对应关系,提升在连续姿态变化下的泛化能力。
- 通过同时在两种视图上进行联合训练,使模型能够学习共享表征,增强对遮挡与姿态变化的鲁棒性。
- 该方法使用多视角响应图抑制人脸检测中的高分误报,从而在高精度阈值下提升查全率。
实验结果
研究问题
- RQ1能否设计一个单一深度学习模型,实现对非受限图像中大姿态变化下人脸的联合检测与大量面部关键点定位?
- RQ2在正面与侧脸数据上进行联合训练,如何提升模型泛化能力并减少对视图专用模型的依赖?
- RQ3采用共享特征学习的粗到细策略,能否提升关键点定位的准确性,并增强对遮挡与姿态变化的鲁棒性?
- RQ4联合多视角响应图在多大程度上能提升高精度条件下的人脸检测查全率?
- RQ5在基准数据集上,该方法与当前最先进的人脸检测与关键点定位方法相比表现如何?
主要发现
- 在99.9%的精确率下,所提方法将人脸检测查全率从基线的65.1%提升至84.5%,显著优于HR-ER与Conv3D。
- 在99%的精确率下,查全率从89.9%提升至90.5%,表明对高精度过滤具有强鲁棒性。
- 在300VW基准上,该方法在可变形人脸跟踪任务中达到最先进性能,尤其在大姿态序列上优于现有方法。
- 在FDDB数据集上,该方法在91%精确率下实现97.76%的查全率,优于HeadHunter、ACF与DPM等现成检测器。
- 在MALF数据集上,该方法在学术与商业人脸检测器中表现最佳,尤其在困难样本与大姿态子集(偏航角 > 40°)上优势显著。
- 通过利用联合多视角响应图,该方法显著减少误报,在97.1%精确率下实现94.8%的查全率,优于DenseBox在大姿态数据上的表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。