QUICK REVIEW

[论文解读] Face Alignment by Local Deep Descriptor Regression

Amit Kumar, Rajeev Ranjan|arXiv (Cornell University)|Jan 29, 2016

Face recognition and analysis参考文献 44被引用 20

一句话总结

本文提出局部深度描述符回归（LDDR），一种利用深度卷积网络提取面部关键点周围局部判别性描述符，并通过回归预测精确关键点位置的面部对齐方法。该方法在五个非约束性人脸数据集上实现了最先进性能，优于使用SIFT和HOG特征的先前方法。

ABSTRACT

We present an algorithm for extracting key-point descriptors using deep convolutional neural networks (CNN). Unlike many existing deep CNNs, our model computes local features around a given point in an image. We also present a face alignment algorithm based on regression using these local descriptors. The proposed method called Local Deep Descriptor Regression (LDDR) is able to localize face landmarks of varying sizes, poses and occlusions with high accuracy. Deep Descriptors presented in this paper are able to uniquely and efficiently describe every pixel in the image and therefore can potentially replace traditional descriptors such as SIFT and HOG. Extensive evaluations on five publicly available unconstrained face alignment datasets show that our deep descriptor network is able to capture strong local features around a given landmark and performs significantly better than many competitive and state-of-the-art face alignment algorithms.

研究动机与目标

为解决全局深度特征在面部对齐中的局限性，开发一种能捕捉细微像素级信息的局部特征描述符。
用更具判别性和对姿态、光照及遮挡变化更鲁棒的深度描述符，替代传统的手工设计描述符（如SIFT和HOG）。
通过在基于回归的框架中利用局部深度描述符，迭代优化关键点预测，从而提升面部对齐精度。
通过将多个CNN融合为单一模型，减少推理时间，实现实时性能。

提出的方法

训练一个定制的深度卷积神经网络，从每个关键点中心的微小图像块中提取局部特征描述符，实现像素级定位。
训练期间，将每个关键点的深度描述符拼接成形状索引特征向量，通过线性回归回归形状增量。
采用迭代优化：从均值形状预测初始形状，每次迭代使用学习到的回归权重，结合深度描述符更新关键点位置。
为提升泛化能力，应用随机旋转和翻转的数据增强，提升训练多样性，无需显式几何变换。
通过将四个阶段专用的CNN合并为一个共享网络，并批量处理68个关键点图像块，将推理时间减少80%。
深度描述符网络在ImageNet上预训练，并在面部对齐数据集上微调，以增强局部特征表示能力。

实验结果

研究问题

RQ1能否有效适配深度卷积网络，为每个像素或关键点提取局部唯一描述符，从而替代SIFT和HOG等传统手工特征？
RQ2在基于回归的面部对齐框架中使用局部深度描述符，是否能在多样化的非约束性人脸数据集中提升精度？
RQ3所提出方法与使用SIFT、HOG或其他手工特征的最先进面部对齐算法相比，性能如何？
RQ4数据增强与模型融合技术在保持高精度的前提下，能在多大程度上减少推理时间，以支持实时应用？

主要发现

所提出的深度描述符网络在累积数据上训练后，在68点Helen数据集上实现4.76%的平均误差，在LFPW数据集上实现4.67%，优于使用SIFT和HOG的方法。
在具有挑战性的iBUG 300-W数据集上，LDDR在68点对齐中实现11.49%的平均误差，优于LBF和CFAN等多种先前方法。
通过将四个CNN融合为一个模型并批量处理关键点块，推理时间从约4秒减少至约0.8秒，实现近实时性能。
在增强数据（旋转与翻转）上训练可提升泛化能力，误差降低约2%，证明深度描述符的鲁棒性。
在Helen的49点子集上实现2.36%的平均误差，表明其在更难的面部轮廓点上也表现优异。
深度描述符被证明具有高度判别性，即使仅用一个均值形状初始化，也能实现高精度，而无需多种初始配置。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。