QUICK REVIEW

[论文解读] Thermal to Visible Face Recognition Using Deep Autoencoders

Alperen Kantarcı, Hazım Kemal Ekenel|arXiv (Cornell University)|Feb 10, 2020

Face recognition and analysis被引用 11

一句话总结

本文提出一种基于深度卷积自编码器的方法，用于学习热成像与可见光人脸图像之间的非线性映射，以实现跨域人脸识别。通过结合U-Net架构、转置卷积解码、DoG预处理以及面部关键点对齐，该方法在Carl数据集上将rank-1准确率提升了14%，在UND-X1数据集上提升了3.5%，达到当前最优性能。

ABSTRACT

Visible face recognition systems achieve nearly perfect recognition accuracies using deep learning. However, in lack of light, these systems perform poorly. A way to deal with this problem is thermal to visible cross-domain face matching. This is a desired technology because of its usefulness in night time surveillance. Nevertheless, due to differences between two domains, it is a very challenging face recognition problem. In this paper, we present a deep autoencoder based system to learn the mapping between visible and thermal face images. Also, we assess the impact of alignment in thermal to visible face recognition. For this purpose, we manually annotate the facial landmarks on the Carl and EURECOM datasets. The proposed approach is extensively tested on three publicly available datasets: Carl, UND-X1, and EURECOM. Experimental results show that the proposed approach improves the state-of-the-art significantly. We observe that alignment increases the performance by around 2%. Annotated facial landmark positions in this study can be downloaded from the following link: github.com/Alpkant/Thermal-to-Visible-Face-Recognition-Using-Deep-Autoencoders .

研究动机与目标

利用热成像解决低光照条件下可见光人脸识别性能低下的挑战。
学习热成像与可见光人脸域之间的非线性映射，以实现跨域匹配。
研究面部对齐与预处理技术对识别准确率的影响。
在热成像到可见光人脸识别基准上进一步提升最先进性能。
为热成像人脸图像提供带注释的面部关键点，以支持未来在热成像面部关键点检测方面的研究。

提出的方法

采用修改后的U-Net架构，通道数为512，瓶颈层大小为14×14，以减少参数量并提高训练效率。
采用两种解码策略：双线性上采样和使用2×2滤波器的转置（上）卷积，以从可见光输入重建热成像图像。
应用均方误差（MSE）损失函数，以最小化生成图像与真实热成像图像之间的重建误差。
集成预处理步骤，包括将可见光图像下采样至与热成像分辨率匹配，并应用高斯差分（DoG）滤波。
在Carl和EURECOM数据集上，使用人工标注的面部关键点（6个点：双眼和嘴角）进行面部对齐。
使用Adam优化器训练自编码器，初始初始学习率为0.01，若验证误差停滞则减半，批量大小为32。

实验结果

研究问题

RQ1深度卷积自编码器能否有效学习热成像与可见光人脸图像之间的非线性映射？
RQ2面部对齐在热成像到可见光人脸识别匹配中对准确率有何影响？
RQ3预处理技术（如DoG滤波和分辨率匹配）对性能的贡献如何？
RQ4上采样方法的选择（双线性与转置卷积）对重建质量和识别准确率有何影响？
RQ5所提方法在基准数据集上相较于现有最先进方法的提升程度如何？

主要发现

当在画廊中使用每个受试者的所有可见光图像时，该方法在Carl数据集上实现了85%的rank-1准确率，相较于之前最先进方法绝对提升了14%。
在UND-X1数据集上，该方法在应用DoG滤波和转置卷积时实现了87.2%的rank-1准确率，相较于先前最先进方法绝对提升了3.5%。
对齐在所有数据集中将识别准确率提升了约2%，在每名受试者2张图像和所有图像的画廊设置下提升最为显著。
使用转置卷积解码始终优于双线性上采样，在Carl数据集上准确率最高提升达4%。
结合DoG滤波和分辨率匹配的预处理显著提升了性能，当同时应用所有预处理、对齐和转置卷积时达到最佳结果。
可视化结果表明，自编码器能为正确匹配的受试者生成逼真的热成像风格图像，而重建失败则与分类错误相关。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。