[论文解读] Superpixel Soup: Monocular Dense 3D Reconstruction of a Complex Dynamic Scene
本文提出 Superpixel Soup,一种统一的方法,通过将场景建模为一系列分段平面表面的集合,每个表面在尽可能刚性(ARAP)变形模型下进行刚性运动,实现对复杂动态场景的单目密集3D重建。通过将重建视为带有几何一致性约束的3D拼图,该方法解决了尺度模糊性问题,并在基准数据集上实现了最先进性能,而无需依赖物体级别的运动分割。
This work addresses the task of dense 3D reconstruction of a complex dynamic scene from images. The prevailing idea to solve this task is composed of a sequence of steps and is dependent on the success of several pipelines in its execution. To overcome such limitations with the existing algorithm, we propose a unified approach to solve this problem. We assume that a dynamic scene can be approximated by numerous piecewise planar surfaces, where each planar surface enjoys its own rigid motion, and the global change in the scene between two frames is as-rigid-as-possible (ARAP). Consequently, our model of a dynamic scene reduces to a soup of planar structures and rigid motion of these local planar structures. Using planar over-segmentation of the scene, we reduce this task to solving a "3D jigsaw puzzle" problem. Hence, the task boils down to correctly assemble each rigid piece to construct a 3D shape that complies with the geometry of the scene under the ARAP assumption. Further, we show that our approach provides an effective solution to the inherent scale-ambiguity in structure-from-motion under perspective projection. We provide extensive experimental results and evaluation on several benchmark datasets. Quantitative comparison with competing approaches shows state-of-the-art performance.
研究动机与目标
- 解决在相机和物体均运动的复杂动态场景中进行密集3D重建的挑战。
- 克服现有方法依赖物体级别运动分割且在透视结构光束法中存在尺度模糊性的问题。
- 开发一种统一框架,无需事先了解场景刚性或物体边界信息。
- 利用几何约束解决单目3D重建中固有的相对尺度模糊性问题。
- 仅从两张透视图像中实现全局一致的密集3D重建。
提出的方法
- 该方法将动态场景建模为一系列‘超像素汤’式的分段平面表面,每个表面具有独立的刚性运动。
- 采用基于超像素的过分割方法在图像中定义局部平面区域,从而实现每个超像素的3D重建。
- 通过全局优化框架在相邻超像素之间施加尽可能刚性(ARAP)变形模型,以确保3D运动的平滑与一致。
- 优化过程结合了四项能量项:ARAP用于局部刚性,重投影误差用于2D一致性,边界处的3D连续性,以及法向方向对齐。
- ARAP项基于超像素锚点的K-近邻图定义,以在3D空间中保持局部刚性。
- 该方法联合优化所有平面片的3D位置和相对尺度,无需外部先验即可解决尺度模糊性问题。
实验结果
研究问题
- RQ1是否可以在不依赖物体级别运动分割的情况下实现复杂动态场景的密集3D重建?
- RQ2如何利用几何先验解决单目结构光束法中的尺度模糊性问题?
- RQ3具有尽可能刚性变形的分段平面模型在多大程度上能捕捉真实动态场景的运动?
- RQ4各项几何约束项(ARAP、重投影、连续性、方向)对最终重建质量的贡献如何?
- RQ5统一的优化框架在多大程度上能有效平衡局部刚性与全局一致性?
主要发现
- 所提方法在基准数据集(包括 MPI Sintel 和 YouTube Object)上实现了最先进性能,关键序列的平均相对重建误差低于 0.17。
- 消融研究显示,若移除四项能量项中的任意一项(ARAP、重投影、连续性或方向),重建质量均出现显著下降。
- ARAP项对正确估计相对尺度至关重要,而重投影、连续性和方向项的组合则确保了相邻平面之间平滑且对齐的3D边界。
- 该方法成功重建了具有复杂运动的场景,例如动态肢体运动的女孩和移动的购物车,优于以往在类似条件下失效的方法。
- 法向方向约束的引入仅带来微小改进,表明ARAP和重投影项在优化中占主导地位。
- 表2中的定量结果表明,加入ARAP项后,alley_1序列的误差从基线的0.2248降低至0.1606,凸显其关键作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。