[论文解读] Families in the Wild (FIW): Large-Scale Kinship Image Database and Benchmarks
本文介绍了野外家庭数据集(Families in the Wild, FIW),这是迄今为止规模最大的亲属关系识别数据集,包含来自1,000个多样化家庭的11,163张非约束家庭照片。作者提出了一种新型分层亲属关系标注工具,并证明在FIW上微调预训练的VGG-Face卷积神经网络可显著提升性能,在亲属关系识别任务中达到13.3%的Top-1准确率,且在亲属关系验证任务中超越了手工设计特征和度量学习基线方法。
We present the largest kinship recognition dataset to date, Families in the Wild (FIW). Motivated by the lack of a single, unified dataset for kinship recognition, we aim to provide a dataset that captivates the interest of the research community. With only a small team, we were able to collect, organize, and label over 10,000 family photos of 1,000 families with our annotation tool designed to mark complex hierarchical relationships and local label information in a quick and efficient manner. We include several benchmarks for two image-based tasks, kinship verification and family recognition. For this, we incorporate several visual features and metric learning methods as baselines. Also, we demonstrate that a pre-trained Convolutional Neural Network (CNN) as an off-the-shelf feature extractor outperforms the other feature types. Then, results were further boosted by fine-tuning two deep CNNs on FIW data: (1) for kinship verification, a triplet loss function was learned on top of the network of pre-trained weights; (2) for family recognition, a family-specific softmax classifier was added to the network.
研究动机与目标
- 为解决当前研究中缺乏大规模、多样化且标注完善的亲属关系图像数据集的问题。
- 通过提供全面的亲属关系验证与家庭识别基准,支持对亲属关系识别系统的稳健评估。
- 通过大规模数据和深度学习微调,提升亲属关系识别任务的性能。
- 支持家庭相册管理、家谱研究和监控系统等实际应用场景。
提出的方法
- 作者从全球1,000个多样化家庭中收集了11,163张非约束家庭照片,确保在年龄、种族和家庭结构上的多样性。
- 开发了定制化标注工具,以高效标注1,000个家谱中的复杂分层亲属关系及局部面部特征。
- 在亲属关系验证任务中,使用三元组损失(triplet loss)在418,060对图像(涵盖11种亲属关系类型)上对预训练的VGG-Face卷积神经网络进行微调。
- 在家庭识别任务中,通过将模型最后一层替换为针对家庭的Softmax分类器,对316个家庭进行分类,实现模型微调。
- 采用5折交叉验证,各折之间无家庭重叠,并使用主成分分析(PCA)将特征维度降低至100维。
- 评估了多种视觉特征(SIFT、LBP、VGG-Face)和度量学习方法(NRML、ITML),使用余弦相似度和SVM进行分类。
实验结果
研究问题
- RQ1与现有较小规模的数据集相比,大规模、多样化且标注完善的图像数据集是否能显著提升亲属关系识别模型的性能?
- RQ2在FIW上微调预训练的卷积神经网络是否能显著超越手工设计特征和度量学习基线方法,在亲属关系验证与家庭识别任务中取得更优结果?
- RQ3不同亲属关系类型(尤其是代表性不足的如祖父母-孙子女)在亲属关系识别任务中的表现如何?
- RQ4非约束环境下数据的数量与多样性在多大程度上提升了模型的泛化能力与鲁棒性?
- RQ5通过三元组损失和针对家庭的分类器进行端到端深度学习微调,是否能在大规模亲属关系识别基准上实现最先进性能?
主要发现
- 使用三元组损失微调预训练的VGG-Face卷积神经网络,在亲属关系验证任务中的准确率优于手工设计特征和度量学习方法,最佳结果在FIW基准上实现。
- 在全部11种亲属关系类型中,VGG-Face特征提取器的表现均优于SIFT和LBP特征,证明了深度特征在亲属关系识别中的优越性。
- 在316个家庭的测试集中,家庭识别准确率从VGG-Face的12.3%提升至微调模型的13.3%,表明领域特定微调具有显著优势。
- 祖父母-孙子女关系对的识别准确率高于父母-子女关系对,可能由于FIW数据集中该类样本数量更大。
- 5折交叉验证结果显示,微调带来了稳定提升,各折间标准差为1.6%,表明性能增益具有高度稳定性。
- FIW数据集包含418,060对图像,涵盖11种亲属关系类型,规模接近第二大数据集Family101的10倍。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。