Skip to main content
QUICK REVIEW

[论文解读] Triplet Similarity Embedding for Face Verification

Swami Sankaranarayanan, Azadeh Alavi|arXiv (Cornell University)|Feb 10, 2016
Face recognition and analysis参考文献 10被引用 44
一句话总结

本文提出了一种三元组相似性嵌入(TSE)方法,结合深度卷积神经网络与通过三元组约束学习得到的低维、大间隔嵌入,仅用20小时训练即在IJB-A人脸识别数据集上达到最先进性能——显著快于以往方法——同时支持高效的后处理操作,如哈希和可视化。

ABSTRACT

In this work, we present an unconstrained face verification algorithm and evaluate it on the recently released IJB-A dataset that aims to push the boundaries of face verification methods. The proposed algorithm couples a deep CNN-based approach with a low-dimensional discriminative embedding learnt using triplet similarity constraints in a large margin fashion. Aside from yielding performance improvement, this embedding provides significant advantages in terms of memory and post-processing operations like hashing and visualization. Experiments on the IJB-A dataset show that the proposed algorithm outperforms state of the art methods in verification and identification metrics, while requiring less training time.

研究动机与目标

  • 解决在真实世界场景中无约束人脸识别的挑战,因为LFW等基准数据集上的性能已趋于饱和。
  • 减少基于深度卷积神经网络的人脸验证模型的训练时间,这些模型传统上需要数周训练。
  • 通过领域特定的微调和度量学习,提升在更具挑战性的IJB-A数据集上的性能。
  • 构建一个紧凑且具有判别力的嵌入空间,以支持高效的下游操作,如哈希和可视化。
  • 证明从ImageNet预训练模型迁移学习,并结合基于三元组的度量学习,可实现更快收敛和更好的泛化能力。

提出的方法

  • 采用受AlexNet启发的深度卷积神经网络架构,减少全连接层数量,并使用参数化修正线性单元(PReLU)激活函数以提升收敛速度。
  • 使用预训练的ImageNet模型初始化卷积层权重,以加速训练并改善特征学习。
  • 在CASIA-WebFace数据集上微调网络,随后在IJB-A训练集上进一步微调,以适应领域特定特征。
  • 通过大间隔损失函数,利用三元组相似性约束学习低维(128维)判别性嵌入,以增强特征判别力。
  • 使用线性变换矩阵将微调后CNN的深层特征投影到学习到的嵌入空间中,实现快速推理。
  • 在训练阶段使用68个标志点进行对齐的简单预处理流程;在测试阶段采用三点关键点对齐,对轮廓人脸则使用边界框裁剪作为备用方案。

实验结果

研究问题

  • RQ1通过迁移学习与基于三元组的度量学习,能否在保持或提升无约束数据集上验证准确率的同时,实现更快的训练速度?
  • RQ2在IJB-A基准上,所提出的三元组相似性嵌入(TSE)方法在验证与识别性能方面与最先进方法相比如何?
  • RQ3与原始深层特征相比,低维嵌入空间在哈希和可视化等下游任务中的性能提升程度如何?
  • RQ4结合预训练权重与领域特定微调,是否能在不牺牲在复杂真实数据上性能的前提下,显著缩短训练时间?
  • RQ5在低误接受率(FAR)下,该方法表现如何?这在实际部署中至关重要。

主要发现

  • 在IJB-A验证协议下,该方法在FAR = 1e-4时达到0.41 ± 0.08的真正接受率(TAR),优于以往最先进方法。
  • 在FAR = 1e-1时,该方法达到0.945 ± 0.002的TAR,表明即使在高安全阈值下仍具备强大性能。
  • 在识别任务中,该方法在rank-1(R1)达到88%准确率,在rank-5(R5)达到95%,超越IJB-A数据集上以往方法。
  • 该模型仅用单张NVIDIA TitanX GPU训练20小时,远快于以往需要数周或数天的方法。
  • 128维嵌入因紧凑且具有判别力,可高效支持后处理操作,如哈希和可视化。
  • 即使在关键点对齐失败的轮廓人脸测试中,该方法仍保持强性能,通过使用边界框裁剪作为备用策略。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。