[论文解读] Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition
本文提出Wasserstein CNN(WCNN),一种用于NIR-VIS人脸识别的新型深度学习框架,通过联合最小化模态特定特征分布之间的Wasserstein距离,并施加低秩约束以缓解过拟合。通过端到端训练学习模态不变特征,WCNN在三个基准数据库上实现了最先进性能,在结合低秩正则化的BUAA NIR-VIS数据集上达到了97.4%的rank-1准确率。
Heterogeneous face recognition (HFR) aims to match facial images acquired from different sensing modalities with mission-critical applications in forensics, security and commercial sectors. However, HFR is a much more challenging problem than traditional face recognition because of large intra-class variations of heterogeneous face images and limited training samples of cross-modality face image pairs. This paper proposes a novel approach namely Wasserstein CNN (convolutional neural networks, or WCNN for short) to learn invariant features between near-infrared and visual face images (i.e. NIR-VIS face recognition). The low-level layers of WCNN are trained with widely available face images in visual spectrum. The high-level layer is divided into three parts, i.e., NIR layer, VIS layer and NIR-VIS shared layer. The first two layers aims to learn modality-specific features and NIR-VIS shared layer is designed to learn modality-invariant feature subspace. Wasserstein distance is introduced into NIR-VIS shared layer to measure the dissimilarity between heterogeneous feature distributions. So W-CNN learning aims to achieve the minimization of Wasserstein distance between NIR distribution and VIS distribution for invariant deep feature representation of heterogeneous face images. To avoid the over-fitting problem on small-scale heterogeneous face data, a correlation prior is introduced on the fully-connected layers of WCNN network to reduce parameter space. This prior is implemented by a low-rank constraint in an end-to-end network. The joint formulation leads to an alternating minimization for deep feature representation at training stage and an efficient computation for heterogeneous data at testing stage. Extensive experiments on three challenging NIR-VIS face recognition databases demonstrate the significant superiority of Wasserstein CNN over state-of-the-art methods.
研究动机与目标
- 为解决异质人脸识别(HFR)中存在较大类内差异以及配对训练样本有限的挑战,特别是针对NIR-VIS人脸匹配问题。
- 学习模态不变的深度特征,弥合近红外(NIR)与可见光(VIS)人脸图像之间的差距。
- 通过全连接层中的低秩相关先验,缓解在小规模NIR-VIS数据集上训练深度模型时的过拟合问题。
- 开发一种可端到端训练的框架,联合优化特征表示与模态间分布对齐。
提出的方法
- WCNN采用共享网络架构,包含三个高层组件:一个模态特定的NIR分支、一个模态特定的VIS分支,以及一个共享的模态不变特征层。
- 共享层通过最小化NIR与VIS图像特征分布之间的Wasserstein距离进行训练,促进分布对齐并减少感知差距。
- 通过相关先验在全连接层施加低秩约束,减少参数空间并防止在小数据集上的过拟合。
- 联合优化通过交替最小化求解,实现高效的端到端训练与推理。
- 网络在大规模VIS人脸数据上进行预训练,并在配对的NIR-VIS数据上进行微调,以迁移身份感知特征。
- 在三个具有挑战性的NIR-VIS数据库(CASIA、BUAA和MSU-MFV)上,采用标准协议对方法进行评估。
实验结果
研究问题
- RQ1在深度学习框架中,Wasserstein距离是否能有效减小NIR与VIS人脸特征之间的分布差距?
- RQ2在小规模NIR-VIS数据集上,对全连接层引入低秩约束如何提升泛化能力?
- RQ3端到端联合优化分布对齐与特征学习是否优于分阶段或独立训练策略?
- RQ4单一共享网络架构能否有效学习跨模态人脸识别中的模态特定与模态不变特征?
- RQ5通过Wasserstein实现的分布对齐与通过低秩实现的参数正则化,在提升识别准确率方面各自贡献如何?
主要发现
- 在BUAA NIR-VIS数据库上,WCNN结合低秩约束实现了97.4%的rank-1准确率,显著优于之前最佳方法(IDR+低秩为94.8%)。
- 在FAR=0.1%时,WCNN+低秩的验证率达到了91.9%,而基线方法H2(LBP3)仅为73.4%。
- 引入低秩约束后,过拟合现象得到缓解,体现在矩阵M^T M的相关结构中,正则化后跨分支相关性更强。
- ROC曲线显示,WCNN+低秩在所有基线中表现最优,尤其在低误报率区域优势显著。
- 消融实验确认Wasserstein距离与低秩正则化均不可或缺:两者结合性能最高,表明具有互补优势。
- 该方法在所有三个基准数据库上均取得最先进结果,验证了其在多样化数据分布下的泛化能力与鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。