Skip to main content
QUICK REVIEW

[论文解读] Face shape classification using Inception v3

Adonis Emmanuel DC. Tio|arXiv (Cornell University)|Nov 15, 2019
Face and Expression Recognition参考文献 5被引用 32
一句话总结

本文提出一种基于迁移学习的深度学习方法,采用Inception v3进行人脸轮廓分类,在包含500张女性名人图像的数据集上实现了84.8%的整体准确率。该方法通过消除人工特征工程的需求,优于SVM、LDA和KNN等传统方法,是首次在该任务中使用卷积神经网络(CNN)并公开提供代码的尝试。

ABSTRACT

In this paper, we present experimental results obtained from retraining the last layer of the Inception v3 model in classifying images of human faces into one of five basic face shapes. The accuracy of the retrained Inception v3 model was compared with that of the following classification methods that uses facial landmark distance ratios and angles as features: linear discriminant analysis (LDA), support vector machines with linear kernel (SVM-LIN), support vector machines with radial basis function kernel (SVM-RBF), artificial neural networks or multilayer perceptron (MLP), and k-nearest neighbors (KNN). All classifiers were trained and tested using a total of 500 images of female celebrities with known face shapes collected from the Internet. Results show that training accuracy and overall accuracy ranges from 98.0% to 100% and from 84.4% to 84.8% for Inception v3 and from 50.6% to 73.0% and from 36.4% to 64.6% for the other classifiers depending on the training set size used. This result shows that the retrained Inception v3 model was able to fit the training data well and outperform the other classifiers without the need to handpick specific features to include in model training. Future work should consider expanding the labeled dataset, preferably one that can also be freely distributed to the research community, so that proper model cross-validation can be performed. As far as we know, this is the first in the literature to use convolutional neural networks in face-shape classification. The scripts are available at https://github.com/adonistio/inception-face-shape-classifier.

研究动机与目标

  • 探索使用深度卷积神经网络实现自动人脸轮廓分类的可行性。
  • 比较使用手工提取的人脸关键点特征时,Inception v3与经典机器学习方法的性能表现。
  • 证明利用预训练模型进行迁移学习可在无需人工特征工程的情况下实现高准确率。
  • 提供公开可获取的实现代码,以支持未来在人脸轮廓分类领域的研究。

提出的方法

  • 对预训练的Inception v3模型的最后全连接层进行微调,用于五类人脸轮廓分类。
  • 使用从互联网收集的500张女性名人图像数据集,其人脸轮廓已知。
  • 提取人脸关键点之间的距离和角度作为传统分类器(LDA、SVM、MLP、KNN)的输入特征。
  • 在不同大小的训练集上训练并评估所有模型,以评估泛化能力。
  • 应用迁移学习,利用ImageNet预训练权重,从而减少训练时间与数据需求。
  • 公开发布代码,以支持可复现性及后续研究。

实验结果

研究问题

  • RQ1预训练的CNN模型(如Inception v3)是否可在无需大量数据或特征工程的情况下,有效微调用于人脸轮廓分类?
  • RQ2与基于人脸关键点特征的经典机器学习模型相比,Inception v3的性能如何?
  • RQ3在有限的真实世界数据集上,使用Inception v3进行迁移学习是否能获得高于传统方法的准确率?
  • RQ4该模型在不同大小的训练集上是否能保持良好的泛化能力,而不会出现过拟合?
  • RQ5这是否是首次成功应用CNN进行端到端学习的人脸轮廓分类研究?

主要发现

  • 微调后的Inception v3模型在训练集上的准确率范围为98.0%至100%,表明其对训练数据具有很强的拟合能力。
  • Inception v3的整体准确率在84.4%至84.8%之间,显著优于所有其他测试的分类器。
  • 表现最佳的传统方法SVM-RBF最高准确率为64.6%,而KNN和LDA的准确率均低于65%。
  • Inception v3在所有训练集大小下均持续优于所有基线模型,表现出良好的鲁棒性。
  • 该模型无需任何人工特征选择,而其他方法则依赖于人脸关键点间距离比和角度。
  • 作者确认,这是文献中首次采用CNN进行人脸轮廓分类的端到端学习方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。