QUICK REVIEW

[论文解读] When Face Recognition Meets with Deep Learning: an Evaluation of Convolutional Neural Networks for Face Recognition

Guosheng Hu, Yongxin Yang|arXiv (Cornell University)|Apr 9, 2015

Face recognition and analysis参考文献 22被引用 38

一句话总结

本文通过在公开的LFW数据集上直接训练和比较多个卷积神经网络（CNN）架构，评估了卷积神经网络（CNN）在人脸识别中的应用，表明网络融合与度量学习能显著提升性能。作者提出了三种新颖的CNN架构，在LFW数据集上训练，结合联合贝叶斯度量学习实现87.63%的准确率，并公开发布代码与模型，确保完全可复现性，为人脸识别研究设立了新的公开基准。

ABSTRACT

Deep learning, in particular Convolutional Neural Network (CNN), has achieved promising results in face recognition recently. However, it remains an open question: why CNNs work well and how to design a 'good' architecture. The existing works tend to focus on reporting CNN architectures that work well for face recognition rather than investigate the reason. In this work, we conduct an extensive evaluation of CNN-based face recognition systems (CNN-FRS) on a common ground to make our work easily reproducible. Specifically, we use public database LFW (Labeled Faces in the Wild) to train CNNs, unlike most existing CNNs trained on private databases. We propose three CNN architectures which are the first reported architectures trained using LFW data. This paper quantitatively compares the architectures of CNNs and evaluate the effect of different implementation choices. We identify several useful properties of CNN-FRS. For instance, the dimensionality of the learned features can be significantly reduced without adverse effect on face recognition accuracy. In addition, traditional metric learning method exploiting CNN-learned features is evaluated. Experiments show two crucial factors to good CNN-FRS performance are the fusion of multiple CNNs and metric learning. To make our work reproducible, source code and models will be made publicly available.

研究动机与目标

在统一数据集上对基于CNN的人脸识别系统（CNN-FRS）进行系统性、可复现的评估，避免因使用私有训练数据而产生的偏差。
研究架构选择（如深度、滤波器数量、层设计）对人脸识别性能的影响。
评估实现因素，包括数据增强、输入类型（彩色与灰度）以及相似性度量。
量化特征维度压缩与下游度量学习对识别准确率的影响。
通过公开发布训练好的模型与源代码，提供一个完全可复现的基线。

提出的方法

在公开的LFW数据集上训练三种新颖的CNN架构，实现模型间的公平比较。
通过提取30个补丁（来自不同尺度和区域的角落与中心）实现多尺度、多裁剪的网络融合，并在每个补丁上独立训练网络。
将16个表现最佳的融合网络的特征进行拼接，形成鲁棒且高容量的人脸表征。
在应用联合贝叶斯（JB）度量学习前，使用主成分分析（PCA）将特征维度从2560降低至320。
使用LFW数据集的标准划分进行交叉验证，并采用标准的人脸识别准确率指标评估性能。
通过对比单个网络、融合网络以及不同度量学习变体的结果，分离出性能提升的来源。

实验结果

研究问题

RQ1在公开数据集（如LFW）上进行训练，相较于私有数据库，对基于CNN的人脸识别系统性能与可复现性有何影响？
RQ2在使用多张裁剪图与多尺度时，网络融合对人脸识别准确率的定量影响是什么？
RQ3度量学习（如联合贝叶斯）在多大程度上提升了CNN学习特征的判别能力？
RQ4在使用CNN学习的特征时，降低特征维度如何影响识别准确率？
RQ5哪些架构与实现选择（如滤波器数量、深度或输入类型）对CNN-FRS性能影响最大？

主要发现

通过融合30个裁剪图（来自多个尺度与区域）中表现最佳的16个网络，人脸识别准确率相比单个网络提升了4.51%，达到83.33%。
多CNN融合显著提升了性能，能够捕捉面部各组件在空间与尺度上的变化。
在PCA降维后的特征（从2560维降至320维）上应用联合贝叶斯度量学习，在LFW的所有划分中均一致提升了识别准确率。
最终系统在结合网络融合与度量学习后，达到87.63%的准确率，尽管特征维度较低，仍优于多个非商业的最先进方法。
特征维度可大幅压缩（降至320维）而性能不下降，表明CNN学习表征具有高度效率。
所提方法通过公开发布代码与模型，建立了完全可复现的人脸识别研究基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。