QUICK REVIEW

[论文解读] Understanding and Comparing Deep Neural Networks for Age and Gender Classification

Sebastian Lapuschkin, Alexander Binder|arXiv (Cornell University)|Aug 25, 2017

Face recognition and analysis参考文献 36被引用 34

一句话总结

本文通过在 Adience 基准上研究模型初始化、预处理和架构对深度神经网络中年龄与性别分类的影响。通过应用逐层显著性传播（LRP）可视化特征重要性，结果表明 ImageNet 预训练可实现整体性特征利用并提升鲁棒性，结合简单预处理和微调模型，实现了最先进的性别分类准确率（90.0%）。

ABSTRACT

Recently, deep neural networks have demonstrated excellent performances in recognizing the age and gender on human face images. However, these models were applied in a black-box manner with no information provided about which facial features are actually used for prediction and how these features depend on image preprocessing, model initialization and architecture choice. We present a study investigating these different effects. In detail, our work compares four popular neural network architectures, studies the effect of pretraining, evaluates the robustness of the considered alignment preprocessings via cross-method test set swapping and intuitively visualizes the model's prediction strategies in given preprocessing conditions using the recent Layer-wise Relevance Propagation (LRP) algorithm. Our evaluations on the challenging Adience benchmark show that suitable parameter initialization leads to a holistic perception of the input, compensating artefactual data representations. With a combination of simple preprocessing steps, we reach state of the art performance in gender recognition.

研究动机与目标

理解模型初始化、预处理和架构如何影响深度神经网络在年龄与性别分类中的性能。
研究图像预处理伪影对模型泛化能力和鲁棒性的影响。
通过逐层显著性传播（LRP）可视化并解释模型决策过程。
比较不同架构下随机初始化与预训练权重初始化的有效性。
通过优化预处理和初始化策略，在 Adience 基准上实现性别分类的最先进性能。

提出的方法

本研究在 Adience 基准上评估了四种深度神经网络架构：CaffeNet、GoogleNet、VGG-16 和基于 ResNet 的模型。
比较了使用 ImageNet 权重、IMDB-WIKI 权重（用于年龄估计）以及随机初始化的模型。
预处理包括旋转对齐、平面内人脸对齐，以及测试集交换，以评估对预处理不匹配的鲁棒性。
使用逐层显著性传播（LRP）可视化对预测贡献最大的面部区域，实现像素级特征重要性分析。
通过在 Adience 数据集上进行五折交叉验证评估性能，报告了年龄和性别分类的准确率。
采用测试集交换方法评估模型鲁棒性：在一种预处理下训练的模型在另一种预处理下测试，以检测对预处理伪影的过拟合。

实验结果

研究问题

RQ1在 ImageNet 或 IMDB-WIKI 上预训练如何影响模型在年龄与性别分类中的性能和特征利用？
RQ2当训练与测试阶段的预处理不匹配时，预处理伪影（如旋转对齐）在多大程度上会降低模型的泛化能力？
RQ3不同模型架构（如 GoogleNet、VGG-16）在不同初始化条件下对人脸特征的依赖程度有何差异？
RQ4LRP 是否能有效揭示模型是否使用整体性面部特征，还是过度拟合于眉毛或耳朵等孤立特征？
RQ5何种预处理与初始化组合可实现 Adience 基准上性别分类的最先进性能？

主要发现

在 ImageNet 上预训练的 GoogleNet 模型在性别分类中使用了更广泛的面部特征，而随机初始化的模型则过度拟合于眉毛和嘴唇等孤立特征。
在 IMDB-WIKI 上预训练（用于年龄估计）使 VGG-16 在年龄预测中产生更聚焦于面部特征的表征，减少了对背景和服装的依赖。
测试集交换结果表明，于旋转图像上训练的模型在对齐图像上测试时性能显著下降，表明其对预处理伪影存在过拟合。
在 ImageNet 上预训练的模型对预处理不匹配表现出更优的鲁棒性，其性能在不同对齐方法下均保持稳定。
旋转对齐与 ImageNet 预训练的结合在 Adience 基准上实现了最先进的性别分类准确率 90.0%。
在旋转对齐图像上训练的微调模型恢复了与从头训练但使用正确预处理数据的模型相当的性能，证实了正确初始化的优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。