[论文解读] Accurate 3D Face Reconstruction with Weakly-Supervised Learning: From Single Image to Image Set
本论文提出基于 CNN 的框架,用于从单幅图像进行弱监督的三维人脸重建,采用混合图像级与感知级损失,并提出一个基于置信度的聚合网络,用于融合多张图像以提升三维形状重建。
Recently, deep learning based 3D face reconstruction methods have shown promising results in both quality and efficiency.However, training deep neural networks typically requires a large volume of data, whereas face images with ground-truth 3D face shapes are scarce. In this paper, we propose a novel deep 3D face reconstruction approach that 1) leverages a robust, hybrid loss function for weakly-supervised learning which takes into account both low-level and perception-level information for supervision, and 2) performs multi-image face reconstruction by exploiting complementary information from different images for shape aggregation. Our method is fast, accurate, and robust to occlusion and large pose. We provide comprehensive experiments on three datasets, systematically comparing our method with fifteen recent methods and demonstrating its state-of-the-art performance.
研究动机与目标
- 通过利用地标、皮肤掩模和人脸识别特征等弱监督信号,在没有地面真相3D标签的情况下推动准确的3D人脸重建。
- 开发一个混合级别的损失,将低层次的光度信息与感知级(深度特征)监督相结合,指导学习。
- 提出基于皮肤颜色的光度注意机制,以提高对遮挡和外观变化的鲁棒性。
- 通过学习每个系数的置信分数,实现跨图像集合对 3DMM 系数的聚合,从而支持多图像重建。
- 在多个数据集上展示最先进的性能,并显示快速推理。
提出的方法
- 使用一个 CNN(R-Net)从单幅图像回归 3D Morphable Model 的系数、照明和姿态。
- 使用混合损失进行训练:含皮肤注意掩模的图像级光度损失、地标损失、使用预训练人脸识别网络的感知级损失,以及对 3DMM 系数和纹理方差的正则化项。
- 引入一个基于朴素贝叶斯肤色分类器计算的皮肤注意机制,用以为像素差异加权。
- 在多图像设置中,学习一个辅助网络(C-Net)输出每个系数的聚合置信分数,实现跨图像的逐元素系数融合。
- 通过预测的置信度将跨图像的身份系数聚合为加权均值,允许姿态和光照多样性提升重建。
- 以无标签方式训练 C-Net,通过相同的混合损失回传聚合的单图像重建结果。
实验结果
研究问题
- RQ1混合图像级与感知级损失是否可以在没有地面真相 3D 形状的情况下,从单张图像实现更有效的弱监督 3D 人脸重建?
- RQ2基于皮肤颜色的光度注意是否能提高对遮挡和外观变化的鲁棒性?
- RQ3一个辅助网络是否可以预测每个系数的置信度,以有效聚合多张人脸图像以获得更准确的 3D 形状?
- RQ4在不受约束的图像集合中,使用学习到的置信度进行多图像聚合,是否优于简单平均或全局质量分数?
- RQ5在标准数据集上,该方法与最先进的监督和无监督/弱监督方法相比有何表现?
主要发现
- 使用所提混合损失进行单图像重建在 MICC 和 FaceWarehouse 数据集上达到最先进的准确度。
- 联合的图像级和感知级监督优于仅使用任一信号。
- 皮肤注意提高对遮挡和具有挑战性的外观(如胡须、化妆)的鲁棒性。
- 采用逐元素的置信度系数融合进行多图像聚合,比形状平均和其他策略得到更好的三维重建,接近监督性能。
- 在各数据集上,该方法对遮挡和大姿态具有鲁棒性,推理速度快(在某些设置下每次前向传播约为 20 ms)。
- The confidence-Net effectively learns to emphasize high-quality, high-visibility images and can leverage pose differences to improve fusion.
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。