[论文解读] 3D ShapeNets: A Deep Representation for Volumetric Shapes
本文提出3D ShapeNets,一种深度学习框架,通过使用卷积深度置信网络将3D体素网格上的3D体积分形表示为概率分布。该方法实现了从单视角2.5D深度图进行联合3D物体识别与形状补全,达到最先进性能,并通过基于熵的视角选择实现主动的下一最佳视角规划。
3D shape is a crucial but heavily underutilized cue in today's computer vision systems, mostly due to the lack of a good generic shape representation. With the recent availability of inexpensive 2.5D depth sensors (e.g. Microsoft Kinect), it is becoming increasingly important to have a powerful 3D shape representation in the loop. Apart from category recognition, recovering full 3D shapes from view-based 2.5D depth maps is also a critical part of visual understanding. To this end, we propose to represent a geometric 3D shape as a probability distribution of binary variables on a 3D voxel grid, using a Convolutional Deep Belief Network. Our model, 3D ShapeNets, learns the distribution of complex 3D shapes across different object categories and arbitrary poses from raw CAD data, and discovers hierarchical compositional part representations automatically. It naturally supports joint object recognition and shape completion from 2.5D depth maps, and it enables active object recognition through view planning. To train our 3D deep learning model, we construct ModelNet -- a large-scale 3D CAD model dataset. Extensive experiments show that our 3D deep representation enables significant performance improvement over the-state-of-the-arts in a variety of tasks.
研究动机与目标
- 为解决计算机视觉中缺乏通用且强大的3D形状表征,特别是针对Kinect等传感器获取的2.5D深度数据的问题。
- 实现从部分深度观测中联合进行3D物体识别与完整形状重建。
- 通过基于不确定性的智能下一最佳视角规划,支持主动物体识别。
- 构建大规模3D CAD数据集ModelNet,用于训练深度3D表征。
- 证明深度3D表征在3D识别与补全任务上显著优于先前方法。
提出的方法
- 使用3D卷积深度置信网络(3D ShapeNets)将3D形状表示为二值体素网格上的概率分布。
- 在原始CAD数据上端到端训练模型,以学习跨物体类别和姿态的分层、组合式部件表征。
- 利用生成模型通过从学习到的分布中采样,从部分2.5D深度图中预测完整的3D形状。
- 实现基于熵的下一最佳视角规划:选择能最大化信息增益并减少识别不确定性的视角。
- 对生成式3D ShapeNets模型进行判别式微调,以提升在真实深度数据上的识别准确率。
- 构建ModelNet,一个大规模3D CAD模型数据集,用于预训练和评估3D ShapeNets模型。
实验结果
研究问题
- RQ1深度3D表征是否能联合提升从单视角深度图进行3D物体识别与形状补全的性能?
- RQ2生成式3D形状表征在处理部分观测并实现形状补全方面有多有效?
- RQ3基于熵的不确定性估计是否能有效指导主动3D物体识别的下一最佳视角规划?
- RQ4在像ModelNet这样的大规模3D CAD数据集上进行预训练,是否能显著提升3D识别任务的性能?
- RQ5在识别准确率和形状补全质量方面,3D ShapeNets与最先进方法相比表现如何?
主要发现
- 在判别式微调后,3D ShapeNets在NYU数据集上的识别准确率相比最先进方法提升10%以上,12类基准测试达到57.9%的准确率。
- 基于熵的下一最佳视角策略优于随机选择、最大可视性和最远相机距离策略,在使用两个视角时,NYU数据集上的识别准确率达到80%。
- 该模型展示了强大的泛化能力,即使未记忆训练样本,也能在多种物体类别上生成合理的3D形状补全。
- 微调后,3D ShapeNets在下一最佳视角实验中对“浴缸”类别的识别准确率达到85.7%,对“床”类别达到100%,显示出对物体变异性的鲁棒性。
- 在基于视角的2.5D识别中,生成模型在“椅子”类别上达到68.5%的准确率,优于ICP和仅使用RGB的基线方法。
- 所提出的3D ShapeNets框架实现了联合识别与补全,具备整合多视角并迭代优化预测的能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。