QUICK REVIEW

[论文解读] ScanComplete: Large-Scale Scene Completion and Semantic Segmentation for 3D Scans

Angela Dai, Daniel Ritchie|arXiv (Cornell University)|Dec 29, 2017

3D Shape Modeling and Analysis参考文献 40被引用 43

一句话总结

ScanComplete 提出了一种全卷积、数据驱动的3D CNN框架，通过粗到细的推理策略，完成大规模、不完整3D扫描，并实现体素级别的语义分割。该方法在真实和合成数据上的场景补全与语义标注任务中均达到最先进性能，能够以高分辨率和全局一致性处理高达1480×1230×64个体素的场景。

ABSTRACT

We introduce ScanComplete, a novel data-driven approach for taking an incomplete 3D scan of a scene as input and predicting a complete 3D model along with per-voxel semantic labels. The key contribution of our method is its ability to handle large scenes with varying spatial extent, managing the cubic growth in data size as scene size increases. To this end, we devise a fully-convolutional generative 3D CNN model whose filter kernels are invariant to the overall scene size. The model can be trained on scene subvolumes but deployed on arbitrarily large scenes at test time. In addition, we propose a coarse-to-fine inference strategy in order to produce high-resolution output while also leveraging large input context sizes. In an extensive series of experiments, we carefully evaluate different model design choices, considering both deterministic and probabilistic models for completion and semantic inference. Our results show that we outperform other methods not only in the size of the environments handled and processing efficiency, but also with regard to completion quality and semantic segmentation performance by a significant margin.

研究动机与目标

解决由于传感器遮挡和探测范围有限导致的室内场景3D重建不完整问题。
实现对具有任意空间范围的大规模场景的处理，克服体素3D表示中立方体内存增长的限制。
同时预测高分辨率3D几何结构和体素级别的语义标签，实现完整的场景理解。
开发一种可从合成训练数据泛化到真实世界RGB-D扫描而无需微调的方法。
通过联合建模几何与语义信息，同时实现高完成度准确率和语义分割性能。

提出的方法

使用对场景尺寸不变的滤波核的全卷积3D CNN，支持在子体积上进行训练，并可部署于任意大小的场景。
实施粗到细的推理策略：利用大感受野的低分辨率预测结果，通过分层细化生成高分辨率输出。
集成自回归体素网络以建模跨空间层次的依赖关系，提升全局一致性。
解耦训练与推理分辨率，即使在较小子体积上训练，也能生成高分辨率输出。
在合成数据（SUNCG）上进行训练，并直接迁移到真实扫描数据（ScanNet）上，无需领域自适应。
联合优化3D补全与语义分割任务，利用共享表征提升整体性能。

实验结果

研究问题

RQ1全卷积3D CNN能否在保持高分辨率输出的同时，处理空间范围无界的场景？
RQ2与单尺度方法相比，粗到细的推理策略在3D场景补全与语义标注质量方面有何提升？
RQ3在合成数据上训练的模型，能在多大程度上泛化到真实世界RGB-D扫描的3D补全与语义分割任务中？
RQ4联合预测几何与语义信息是否优于分别建模这两项任务？
RQ5大范围空间上下文对3D场景补全中的全局一致性和局部细节有何影响？

主要发现

ScanComplete 在3D场景补全任务中达到最先进性能，在合成数据和真实ScanNet数据上均优于Poisson Surface Reconstruction与3D-EPN等方法。
与基线方法（包括SSCNet与3D-EPN）相比，该方法显著降低了重建误差（ℓ₁损失），尤其在大场景中表现更优。
在SUNCG数据集上，通过联合补全与标注，语义分割准确率显著提升，mIoU高于SSCNet及其他基线方法。
模型能有效从合成训练数据泛化到真实世界RGB-D扫描（ScanNet），无需微调即可生成合理且一致的补全结果。
粗到细策略在保持全局一致性的同时，实现了高分辨率输出（约5 cm³体素），这一结果在定性和定量分析中均得到验证。
推理过程在测试阶段高效，无论场景大小，仅需O(1)次前向传播，而先前方法需在子体积上进行O(w×h×d)次前向传播。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。