[论文解读] PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization
本文提出一种全卷积、像素对齐的隐函数(PIFu),能够从单幅图像并可结合多视角数字化高分辨率穿着衣物的人体及纹理。
We introduce Pixel-aligned Implicit Function (PIFu), a highly effective implicit representation that locally aligns pixels of 2D images with the global context of their corresponding 3D object. Using PIFu, we propose an end-to-end deep learning method for digitizing highly detailed clothed humans that can infer both 3D surface and texture from a single image, and optionally, multiple input images. Highly intricate shapes, such as hairstyles, clothing, as well as their variations and deformations can be digitized in a unified way. Compared to existing representations used for 3D deep learning, PIFu can produce high-resolution surfaces including largely unseen regions such as the back of a person. In particular, it is memory efficient unlike the voxel representation, can handle arbitrary topology, and the resulting surface is spatially aligned with the input image. Furthermore, while previous techniques are designed to process either a single image or multiple views, PIFu extends naturally to arbitrary number of views. We demonstrate high-resolution and robust reconstructions on real world images from the DeepFashion dataset, which contains a variety of challenging clothing types. Our method achieves state-of-the-art performance on a public benchmark and outperforms the prior work for clothed human digitization from a single image.
研究动机与目标
- 从单幅图像或多视角中推进高质量的三维穿着人体重建。
- 开发一种全卷积隐式表示,通过像素对齐特征保留空间细节。
- 实现纹理预测,并在不依赖模板的情况下处理具有任意拓扑的 garment。
- 展示相较于先前全局特征隐式方法和基于模板的方法的改进。
提出的方法
- 使用一个全卷积网络来学习像素对齐的隐式场。
- 将全局特征与像素对齐的局部特征结合起来回归三维 occupancy/mesh 信息。
- 在具有任意拓扑的 3D 表面上使用相同框架进行纹理推断。
- 在可用时结合多视信息以提升重建质量。
- 与全局隐式函数基线(如 IM-GAN)和基于模板的方法进行对比。
- 在补充材料中提供技术细节和训练过程并发布代码。
实验结果
研究问题
- RQ1一个像素对齐的全卷积隐式表示是否能够从单幅图像恢复高分辨率的穿着衣物的人体形状和纹理?
- RQ2相比单视图输入,结合多视信息是否进一步提高 3D 重建质量和纹理保真度?
- RQ3就几何和纹理准确性而言,PIFu 相较于全局特征隐式方法和基于模板的方法有何差异?
- RQ4框架能否在不依赖模板的情况下重建具有任意拓扑的服装(如连衣裙、裙子)?
- RQ5遮挡和轮廓视角对重建质量有何影响?
主要发现
| 方法 | 法线 | P2S | Chamfer |
|---|---|---|---|
| Template, video [1] | 0.127 | 0.820 | 0.795 |
| Ours (3 views) | 0.107 | 0.665 | 0.641 |
- PIFu 能从单幅图像实现带纹理的高分辨率穿着人体数字化,并可利用多视图。
- 像素对齐的全卷积方法在空间对齐和细节保留方面优于全局隐式方法(IM-GAN)。
- PIFu 在三个指标(Normal、P2S、Chamfer)上都优于使用 3 视图的基于模板的方法。
- 对于基于模板的方法 vs PIFu + 3 视图,Normal 从 0.127 提升到 0.107,P2S 从 0.820 提升到 0.665,Chamfer 从 0.795 提升到 0.641。
- PIFu 能在具有任意拓扑的 3D 表面上预测纹理,并在遮挡或轮廓视角下也能恢复全局上合理的形状。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。