[论文解读] Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network
该论文引入 PRN,一种端到端网络,从单张图像回归 UV 位置图,以同时重建完整的 3D 脸部几何并提供密集对齐,且无需预定义的人脸模型,实现实时性能(约 9.8 ms)并达到最先进的强大结果。
We propose a straightforward method that simultaneously reconstructs the 3D facial structure and provides dense alignment. To achieve this, we design a 2D representation called UV position map which records the 3D shape of a complete face in UV space, then train a simple Convolutional Neural Network to regress it from a single 2D image. We also integrate a weight mask into the loss function during training to improve the performance of the network. Our method does not rely on any prior face model, and can reconstruct full facial geometry along with semantic meaning. Meanwhile, our network is very light-weighted and spends only 9.8ms to process an image, which is extremely faster than previous works. Experiments on multiple challenging datasets show that our method surpasses other state-of-the-art methods on both reconstruction and alignment tasks by a large margin.
研究动机与目标
- 解决在没有模型约束的情况下同时实现 3D 人脸重建与密集对齐的挑战。
- 在二维 UV 空间中表示完整的 3D 脸部结构,以实现高效学习。
- 通过加权损失函数强调具辨识性的面部区域来改进训练。
- 提供一个轻量级、实时的框架,适用于无约束环境。
提出的方法
- 引入在 UV 空间记录 3D 坐标的 UV 位置图,保留语义点的对应关系。
- 使用编码器–解码器卷积神经网络在单张二维图像中一次性回归 UV 位置图。
- 使用带掩模的加权损失,其中优先关注 68 个面部关键点和面部中部区域,同时对颈部进行下采样权重。
- 利用 300W-LP 派生数据,通过从标注的 3DMM 参数渲染真实 UV 地图进行训练。
- 保持模型的简洁性以实现实时处理(在 GTX 1080 上约每张图像 9.8 ms),推理阶段不依赖 3DMM 参数回归。
实验结果
研究问题
- RQ1一个无模型、端到端的回归 UV 位置图的网络,是否能够从单张图像实现既密集的 3D 人脸重建又密集的面部对齐?
- RQ2与均匀损失相比,强调具辨识性的面部区域的加权损失是否能提高重建和对齐的准确性?
- RQ3在具有挑战性的野外数据集上,是否有可能在保持最先进精度的同时实现实时性能?
主要发现
- 与若干基线方法相比,该方法在 AFLW2000-3D 和 Florence 数据集上实现了在 3D 人脸重建和密集对齐方面的优异表现。
- PRN 的运行速度超过 100 FPS,网络大小为 160 MB,显著小于且比 VRN-Guided 等竞争方法更快。
- 在 AFLW2000-3D 上,PRN 在 2D 与 3D 密集对齐指标上均显著超越最先进方法。
- 在 Florence 数据集上,PRN 提供更细致的细节,在平均误差方面相对比 VRN-Guided 提升 28.7%。
- 消融研究表明使用权重掩模可以提升性能,权重比率影响稀疏与密集对齐结果都有影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。