Skip to main content
QUICK REVIEW

[论文解读] Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks

Zhenhua Feng, Josef Kittler|arXiv (Cornell University)|Nov 17, 2017
Face recognition and analysis被引用 36
一句话总结

本文提出Wing损失,一种新颖的分段损失函数,通过增强小误差和中等误差的影响,提升深度卷积神经网络在人脸关键点定位中的训练效果。该方法在300W和AFLW基准测试中达到最先进性能,相较于先前方法将误差降低最多达20%,并引入基于姿态的数据平衡策略与两阶段框架,进一步提升鲁棒性与性能。

ABSTRACT

We present a new loss function, namely Wing loss, for robust facial landmark localisation with Convolutional Neural Networks (CNNs). We first compare and analyse different loss functions including L2, L1 and smooth L1. The analysis of these loss functions suggests that, for the training of a CNN-based localisation model, more attention should be paid to small and medium range errors. To this end, we design a piece-wise loss function. The new loss amplifies the impact of errors from the interval (-w, w) by switching from L1 loss to a modified logarithm function. To address the problem of under-representation of samples with large out-of-plane head rotations in the training set, we propose a simple but effective boosting strategy, referred to as pose-based data balancing. In particular, we deal with the data imbalance problem by duplicating the minority training samples and perturbing them by injecting random image rotation, bounding box translation and other data augmentation approaches. Last, the proposed approach is extended to create a two-stage framework for robust facial landmark localisation. The experimental results obtained on AFLW and 300W demonstrate the merits of the Wing loss function, and prove the superiority of the proposed method over the state-of-the-art approaches.

研究动机与目标

  • 解决标准损失函数(如L2)在基于深度卷积神经网络的人脸关键点定位中的局限性。
  • 通过聚焦于对鲁棒定位至关重要的小误差与中等回归误差,提升训练稳定性和准确性。
  • 缓解训练集中数据不平衡问题,特别是针对大平面外旋转的人脸样本。
  • 开发一种两阶段框架,通过迭代优化提升定位精度。
  • 验证Wing损失在多种深度卷积神经网络架构与基准数据集上的泛化能力。

提出的方法

  • 提出Wing损失,一种分段损失函数,在预定义区间(-w, w)内从L1过渡到修改后的对数函数,以强调小误差与中等误差。
  • 设计基于姿态的数据平衡策略,通过随机图像旋转与边界框平移,对少数样本(如大头旋转)进行复制与增强。
  • 采用两阶段级联回归框架,第一阶段预测粗略关键点,第二阶段利用第一阶段的特征图进行精炼。
  • 使用标准卷积神经网络架构(如CNN-6/7、ResNet-50)在AFLW与300W数据集上微调,结合Wing损失。
  • 应用随机旋转与平移等数据增强技术,提升在挑战性姿态下的泛化能力。
  • 在多种网络架构与基准测试中验证损失函数,评估其鲁棒性与可扩展性。

实验结果

研究问题

  • RQ1常见损失函数(L1、L2、平滑L1)在基于卷积神经网络的人脸关键点定位中性能如何比较?
  • RQ2能否设计一种新损失函数,更好地强调小误差与中等回归误差,从而提升定位精度?
  • RQ3数据不平衡(特别是大平面外头旋转)如何影响模型性能,能否有效缓解?
  • RQ4两阶段框架是否能通过Wing损失进一步提升性能,超越单阶段模型?
  • RQ5Wing损失是否能在不同深度网络架构(包括ResNet-50等深层模型)上实现良好泛化?

主要发现

  • 在300W数据集上,Wing损失将平均归一化误差(NME)降低至3.60%(×10⁻²),相比先前最先进方法RAR提升近20%。
  • 在AFLW-Full上,Wing损失配合ResNet-50实现NME为1.47%(×10⁻²),较CNN-6/7基线提升10%。
  • 所提出的基于姿态的数据平衡策略显著提升在挑战性姿态下的性能,尤其针对大平面外旋转。
  • 两阶段框架精度高于单阶段模型,证明了迭代优化的优势。
  • 使用Wing损失的CNN-6/7模型在GPU上达到170 fps,速度优于大多数基于深度神经网络的方法,同时保持高精度。
  • ResNet-50配合Wing损失在所有测试损失函数中表现最优,证实其在深层网络中的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。