QUICK REVIEW

[论文解读] SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction

Lingyu Liang, Luojun Lin|arXiv (Cornell University)|Jan 19, 2018

Face recognition and analysis参考文献 32被引用 26

一句话总结

本论文提出 SCUT-FBP5500，一个包含 5,500 幅正面人脸的多样化基准数据集，涵盖男性/女性、亚洲/高加索人种以及不同年龄群体，具备丰富的标注信息，包括面部关键点、美感评分（1–5 分）及评分分布。该数据集支持多范式面部美感预测，涵盖分类、回归与排序任务，并在深度学习模型（如 ResNeXt-50）上展现出优异性能，实现 5 折交叉验证准确率 89.97% 和均方根误差 0.3017。

ABSTRACT

Facial beauty prediction (FBP) is a significant visual recognition problem to make assessment of facial attractiveness that is consistent to human perception. To tackle this problem, various data-driven models, especially state-of-the-art deep learning techniques, were introduced, and benchmark dataset become one of the essential elements to achieve FBP. Previous works have formulated the recognition of facial beauty as a specific supervised learning problem of classification, regression or ranking, which indicates that FBP is intrinsically a computation problem with multiple paradigms. However, most of FBP benchmark datasets were built under specific computation constrains, which limits the performance and flexibility of the computational model trained on the dataset. In this paper, we argue that FBP is a multi-paradigm computation problem, and propose a new diverse benchmark dataset, called SCUT-FBP5500, to achieve multi-paradigm facial beauty prediction. The SCUT-FBP5500 dataset has totally 5500 frontal faces with diverse properties (male/female, Asian/Caucasian, ages) and diverse labels (face landmarks, beauty scores within [1,~5], beauty score distribution), which allows different computational models with different FBP paradigms, such as appearance-based/shape-based facial beauty classification/regression model for male/female of Asian/Caucasian. We evaluated the SCUT-FBP5500 dataset for FBP using different combinations of feature and predictor, and various deep learning methods. The results indicates the improvement of FBP and the potential applications based on the SCUT-FBP5500.

研究动机与目标

解决面部美感预测（FBP）领域缺乏多样化、多范式基准数据集的问题，这些数据集需支持多种计算范式。
克服以往数据集的局限性，这些数据集通常仅聚焦于单一人群（如亚洲女性）或特定任务（如仅基于外观的预测）。
提供一个全面、公开可获取的数据集，涵盖多样化的人脸属性与多层次标注，以支持稳健的 FBP 模型开发。
支持在不同 FBP 范式（包括基于外观、基于形状及混合方法）下对浅层与深层学习模型的评估。
通过多样化、高质量的数据，促进可泛化、与人类判断一致的面部吸引力评估系统的发展。

提出的方法

收集并整理 5,500 幅正面人脸图像，确保在性别（男性/女性）、种族（亚洲/高加索人种）和年龄组之间实现均衡分布。
为每张图像标注五分制美感评分（1–5 分）、86 个面部关键点及其对应的美感评分分布。
通过支持使用同一数据集进行分类、回归与排序任务的训练与评估，实现对多种 FBP 范式的支持。
使用手工设计特征（如结合 86 个关键点与 UniSamplePoint 采样方式的 Gabor 特征）和深度学习模型（AlexNet、ResNet-18、ResNeXt-50）进行性能评估。
采用 5 折交叉验证与 60%/40% 训练/测试划分策略，以评估不同训练方案下模型的泛化能力与鲁棒性。
在训练浅层预测器前，对提取的外观特征应用主成分分析（PCA）进行降维；对预训练的 ImageNet 模型进行微调，以评估深度学习性能。

实验结果

研究问题

RQ1一个多样化、多范式的基准数据集是否能提升不同人群与计算范式下面部美感预测模型的性能与泛化能力？
RQ2在大规模、多样化 FBP 数据集上，深度学习模型（如 ResNeXt-50）与使用手工特征的浅层模型在准确率、平均绝对误差（MAE）与均方根误差（RMSE）方面表现如何比较？
RQ3训练集中数据的多样性（如性别、种族、年龄）在不同学习范式下对 FBP 模型性能的影响程度如何？
RQ4与仅使用美感评分的模型相比，引入面部关键点与美感评分分布是否能提升 FBP 系统的可靠性与可解释性？
RQ5不同的数据划分策略（5 折交叉验证 vs. 60%/40% 划分）对 SCUT-FBP5500 上 FBP 模型性能评估有何影响？

主要发现

使用 ResNeXt-50 模型在 SCUT-FBP5500 上实现 5 折交叉验证准确率 89.97%，优于 AlexNet（86.34%）与 ResNet-18（89.00%）。
ResNeXt-50 模型在 5 折交叉验证中取得最低的 RMSE（0.3017）与 MAE（0.2291），表明其回归性能优异。
60%/40% 训练/测试划分策略的准确率（87.77%）略低，RMSE（0.3325）略高，表明数据多样性与训练集规模对模型泛化能力有显著影响。
深度学习模型在所有评估中持续优于使用手工特征的浅层预测器：ResNeXt-50 的 5 折准确率（PC）为 89.97%，高于 AlexNet 的 86.34% 与 ResNet-18 的 89.00%。
该数据集支持多范式 FBP，可有效评估基于外观、基于形状及混合模型在分类、回归与排序任务中的表现。
对美感评分分布与关键点位置的可视化结果证实了数据集在人口统计与美学维度上的统计多样性与代表性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。