Skip to main content
QUICK REVIEW

[论文解读] Mesh R-CNN

Georgia Gkioxari, Jitendra Malik|arXiv (Cornell University)|Jun 6, 2019
3D Shape Modeling and Analysis参考文献 70被引用 90
一句话总结

Mesh R-CNN 通过扩展 Mask R-CNN 以增加一个网格预测分支,实现了 2D 目标检测与 3D 形状预测的统一,该分支可生成拓扑结构可变的三角网格。它首先预测粗粒度的体素表示,将其转换为网格,并利用图卷积网络进行细化,从而在单张图像 3D 形状预测任务上达到最先进性能,并实现在真实世界图像上的联合目标检测与 3D 重建。

ABSTRACT

Rapid advances in 2D perception have led to systems that accurately detect objects in real-world images. However, these systems make predictions in 2D, ignoring the 3D structure of the world. Concurrently, advances in 3D shape prediction have mostly focused on synthetic benchmarks and isolated objects. We unify advances in these two areas. We propose a system that detects objects in real-world images and produces a triangle mesh giving the full 3D shape of each detected object. Our system, called Mesh R-CNN, augments Mask R-CNN with a mesh prediction branch that outputs meshes with varying topological structure by first predicting coarse voxel representations which are converted to meshes and refined with a graph convolution network operating over the mesh's vertices and edges. We validate our mesh prediction branch on ShapeNet, where we outperform prior work on single-image shape prediction. We then deploy our full Mesh R-CNN system on Pix3D, where we jointly detect objects and predict their 3D shapes.

研究动机与目标

  • 弥合真实世界图像中 2D 目标检测与 3D 形状重建之间的差距。
  • 开发一个统一框架,联合检测目标并预测其完整的 3D 网格形状。
  • 实现具有可变拓扑结构的网格预测,而非固定或预定义的拓扑结构。
  • 在真实世界基准上提升单图像 3D 形状预测性能,超越合成数据集上的表现。

提出的方法

  • 将 Mask R-CNN 扩展为包含一个输出可变拓扑三角网格的网格预测分支。
  • 从 2D 图像特征预测 3D 形状的粗粒度体素表示。
  • 使用网格重建算法将预测的体素转换为初始三角网格。
  • 利用在顶点和边特征上操作的图卷积网络对网格几何进行细化。
  • 采用可微分的网格细化模块以优化网格结构和表面细节。
  • 在真实世界图像数据集上端到端训练整个系统,采用联合检测与 3D 形状预测监督。

实验结果

研究问题

  • RQ1是否可以设计一个统一的深度学习框架,从单张 RGB 图像中联合检测目标并预测其 3D 网格形状?
  • RQ2如何使网格预测对真实场景中 3D 目标拓扑结构的多样性具有鲁棒性?
  • RQ3基于体素的粗粒度预测结合图卷积细化在 3D 形状重建中能带来多大的性能提升?
  • RQ4所提出方法在单图像 3D 形状预测基准上与之前最先进方法相比表现如何?
  • RQ5该系统能否泛化到真实世界中多样化且复杂的场景,而不仅限于合成或孤立目标设置?

主要发现

  • Mesh R-CNN 在 ShapeNet 基准上实现了单图像 3D 形状预测的最先进性能,优于先前方法。
  • 网格预测分支在真实世界图像上泛化良好,其在 Pix3D 数据集上的部署已得到验证。
  • 使用图卷积网络进行网格细化相比基线方法显著提升了网格质量和几何细节。
  • 该系统成功预测了具有不同拓扑结构的 3D 网格,实现了对复杂形状的精确建模。
  • 端到端训练实现了目标检测与 3D 形状预测的联合优化,从而提升了两个任务的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。