QUICK REVIEW

[论文解读] Relighting Humans: Occlusion-Aware Inverse Rendering for Full-Body Human Images

Yoshihiro Kanamori, Yuki Endo|arXiv (Cornell University)|Aug 7, 2019

Computer Graphics and Visualization Techniques参考文献 49被引用 12

一句话总结

本文提出一种基于卷积神经网络（CNN）的深度学习方法，用于实现全身人体图像的遮挡感知重布光。该方法通过推断反照率、光照以及每像素编码二阶球谐函数（SH）系数的光传输图，以建模光照遮挡，从而实现带有自阴影的真实感重布光。主要贡献在于仅使用少量几何对齐的合成数据集，即可实现可信的遮挡建模，显著提升了忽略遮挡的基线方法的逼真度。

ABSTRACT

Relighting of human images has various applications in image synthesis. For relighting, we must infer albedo, shape, and illumination from a human portrait. Previous techniques rely on human faces for this inference, based on spherical harmonics (SH) lighting. However, because they often ignore light occlusion, inferred shapes are biased and relit images are unnaturally bright particularly at hollowed regions such as armpits, crotches, or garment wrinkles. This paper introduces the first attempt to infer light occlusion in the SH formulation directly. Based on supervised learning using convolutional neural networks (CNNs), we infer not only an albedo map, illumination but also a light transport map that encodes occlusion as nine SH coefficients per pixel. The main difficulty in this inference is the lack of training datasets compared to unlimited variations of human portraits. Surprisingly, geometric information including occlusion can be inferred plausibly even with a small dataset of synthesized human figures, by carefully preparing the dataset so that the CNNs can exploit the data coherency. Our method accomplishes more realistic relighting than the occlusion-ignored formulation.

研究动机与目标

为解决单张图像重布光中缺乏真实感自阴影的问题，尤其是在腋下、胯下等凹陷区域。
通过将遮挡信息整合到球谐函数（SH）光照公式中，实现全身人体图像的物理上合理的重布光。
在少量几何对齐的合成3D人体模型数据集上，训练基于CNN的逆向渲染系统，以推断遮挡感知的光传输图。
通过计算推断出的光传输向量与SH光照系数之间的点积，实现快速高效的重布光。

提出的方法

该方法使用CNN从单张掩码处理的人体图像中推断三个分量：反照率图、光照的SH系数，以及每像素包含九个SH系数的光传输图，以编码遮挡效应。
光传输图源自预计算辐射转移（PRT）的SH公式，其中遮挡和余弦瓣效应被编码为SH系数。
使用来自扫描模型和商业数据集的3D人体模型合成数据集进行监督训练，通过人体模型的几何对齐提升数据的一致性。
网络采用端到端训练，结合L1损失和感知损失，以最小化预测图像与真实图像之间的差异。
重布光通过计算光传输向量与SH光照系数的点积，再与反照率图进行逐通道相乘来高效实现。
该方法利用掩码提供的轮廓和形状先验，即使在训练数据有限的情况下，也能推断出如遮挡等几何细节。

实验结果

研究问题

RQ1深度CNN能否仅使用少量合成数据集，就在全身人体图像中推断出光照遮挡？
RQ2基于SH的光传输公式能否有效建模腋下、胯下等凹陷区域的自阴影？
RQ3该网络能否在未显式训练过的情况下泛化到未见姿态（如坐姿）？
RQ4在训练数据中未出现的异常光照条件下，该方法表现如何？

主要发现

该方法在凹陷区域实现了逼真的自阴影重布光，视觉质量显著优于忽略遮挡的基线方法。
尽管仅使用了数百个3D人体模型，CNN仍能学习到准确的光传输图，有效捕捉腋下、胯下及衣物褶皱处的遮挡效应。
单张1024×1024图像的推理时间仅为0.43秒，支持实时重布光应用。
该模型对未见的坐姿姿态泛化良好，表明其从轮廓中学习到了强大的形状先验。
在高度异常的光照条件下，该方法表现不佳，倾向于重建最近邻的训练光照，导致反照率图出现伪影。
自监督微调因光传输图的高维特性（每像素九个通道）而崩溃，导致网络不稳定，缺乏监督则难以收敛。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。