[论文解读] Deep Perceptual Mapping for Thermal to Visible Face Recognition
本文提出深度感知映射(DPM),一种深度神经网络方法,通过学习从可见光到热成像人脸图像的非线性映射,以弥合跨光谱人脸识别中的巨大模态差异。通过在映射过程中保留身份信息,DPM在具有挑战性的 UND-X1 数据集上将 Rank-1 识别率提升超过 10%,并将由模态差异引起的表现下降减少 40%以上。
Cross modal face matching between the thermal and visible spectrum is a much de- sired capability for night-time surveillance and security applications. Due to a very large modality gap, thermal-to-visible face recognition is one of the most challenging face matching problem. In this paper, we present an approach to bridge this modality gap by a significant margin. Our approach captures the highly non-linear relationship be- tween the two modalities by using a deep neural network. Our model attempts to learn a non-linear mapping from visible to thermal spectrum while preserving the identity in- formation. We show substantive performance improvement on a difficult thermal-visible face dataset. The presented approach improves the state-of-the-art by more than 10% in terms of Rank-1 identification and bridge the drop in performance due to the modality gap by more than 40%.
研究动机与目标
- 解决由于光谱域之间存在巨大模态差异,导致热成像到可见光人脸识别性能显著下降的问题。
- 为隐蔽夜间监控提供实用解决方案,该场景中使用热成像但需与可见光数据库进行匹配。
- 克服现有方法仅关注近红外(NIR)或短波红外(SWIR)到可见光匹配的局限性,这些方法需要主动照明,不适合隐蔽操作。
- 采用基于深度学习的方法,在具有挑战性的 UND-X1 热成像-可见光人脸数据集上实现最先进性能。
- 在少量训练数据下证明该方法的实时可行性与鲁棒性,同时在不同模态间保持身份信息。
提出的方法
- 训练前馈深度神经网络,学习从可见光图像密集卷积特征到对应热成像图像的非线性回归函数。
- 采用多层感知机(MLP)架构,包含一个或多个隐藏层,以建模可见光与热成像人脸外观之间的复杂非线性关系。
- 通过在训练过程中最小化重建误差并保持判别性特征表示,实现在映射过程中保留身份信息。
- 使用预训练的卷积神经网络(如 VGG 或类似模型)从可见光图像中提取深层特征,再通过学习到的 DPM 网络将这些特征投影至热成像域。
- 在测试时应用 DPM 网络,将探测用的可见光特征映射至热成像域,从而利用标准余弦相似度或分类方法实现跨模态匹配。
- 使用端到端反向传播优化网络,损失函数为重建损失,以促使映射后的特征尽可能接近真实热成像特征。
实验结果
研究问题
- RQ1深度神经网络能否有效学习可见光与热成像人脸图像之间的非线性映射,以减少模态差异?
- RQ2此类映射在具有显著光谱差异的真实世界数据集上,能在多大程度上提升跨光谱人脸识别性能?
- RQ3通过所提出的深度感知映射方法,能将模态差异导致的性能下降减少多少?
- RQ4当在相对稀疏的数据上进行训练(如每个受试者仅有一两张可见光图像)时,该方法是否依然具备鲁棒性?
- RQ5该方法是否可在计算开销极小的前提下实现实时应用?
主要发现
- 所提出的 DPM 方法在 UND-X1 数据集上的 Rank-1 识别准确率相比之前最先进方法提升了 10%以上。
- 该方法将模态差异导致的性能差距减少了 40%以上,将性能下降从基线的 59% 降低至 DPM 的 34%。
- 在热成像-热成像识别任务中,该方法取得了 89.7% 的 Rank-1 得分,而基线的热成像-可见光性能则骤降至 30.3%,凸显了模态差异的严重性。
- 当画廊中每个受试者仅有一张可见光图像时,基于 DPM 的方法实现了 55.36% 的 Rank-1 准确率,而基线特征仅为 30.36%,表现出 25% 的提升。
- 该方法计算效率高,单张图像的特征提取与映射仅需 45ms,实时推理速度约为 28 fps,适用于实时监控应用。
- DPM 方法是首个成功将深度神经网络应用于弥合热成像到可见光人脸识别模态差异的方法,在困难数据集上树立了新基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。