QUICK REVIEW

[論文レビュー] Mesh R-CNN

Georgia Gkioxari, Jitendra Malik|arXiv (Cornell University)|Jun 6, 2019

3D Shape Modeling and Analysis参考文献 70被引用数 90

ひとこと要約

Mesh R-CNN は、トポロジーが異なる三角形メッシュを生成するメッシュ予測ブランチをマスク R-CNN に拡張することで、2次元オブジェクト検出と3次元形状予測を統合する。まず粗いボクセル表現を予測し、それをメッシュに変換してから、グラフ畳み込みネットワークを用いて精緻化する。これにより、実世界の画像における1枚画像からの3次元形状予測で最先端の性能を達成するとともに、オブジェクト検出と3次元再構築を同時に実現する。

ABSTRACT

Rapid advances in 2D perception have led to systems that accurately detect objects in real-world images. However, these systems make predictions in 2D, ignoring the 3D structure of the world. Concurrently, advances in 3D shape prediction have mostly focused on synthetic benchmarks and isolated objects. We unify advances in these two areas. We propose a system that detects objects in real-world images and produces a triangle mesh giving the full 3D shape of each detected object. Our system, called Mesh R-CNN, augments Mask R-CNN with a mesh prediction branch that outputs meshes with varying topological structure by first predicting coarse voxel representations which are converted to meshes and refined with a graph convolution network operating over the mesh's vertices and edges. We validate our mesh prediction branch on ShapeNet, where we outperform prior work on single-image shape prediction. We then deploy our full Mesh R-CNN system on Pix3D, where we jointly detect objects and predict their 3D shapes.

研究の動機と目的

実世界の画像における2次元オブジェクト検出と3次元形状再構築のギャップを埋めること。
オブジェクトの検出とその完全な3次元メッシュ形状の予測を同時に実行する統合フレームワークを開発すること。
固定または事前に定義されたトポロジーではなく、可変なトポロジー構造を持つメッシュ予測を可能にすること。
合成データセットではなく実世界のベンチマークにおいて、1枚画像からの3次元形状予測性能を向上させること。

提案手法

トポロジーが可変な三角形メッシュを出力するメッシュ予測ブランチをマスク R-CNN に拡張する。
2次元画像特徴量から3次元形状の粗いボクセル表現を予測する。
予測されたボクセルをメッシュ再構築アルゴリズムを用いて初期の三角形メッシュに変換する。
頂点およびエッジ特徴量上で動作するグラフ畳み込みネットワークを用いてメッシュ幾何を精緻化する。
メッシュ構造および表面の詳細を最適化する微分可能なメッシュ精緻化モジュールを用いる。
オブジェクト検出と3次元形状予測の両方の監視情報を用いて、実世界の画像データセット上でエンドツーエンドに全システムを訓練する。

実験結果

リサーチクエスチョン

RQ1統合されたディープラーニングフレームワークは、1枚のRGB画像からオブジェクトを検出し、その3次元メッシュ形状を同時に予測できるか？
RQ2実世界のシーンにおける3次元オブジェクトの多様なトポロジー構造に耐性を持つメッシュ予測はどのように実現できるか？
RQ3ボクセルベースの粗い予測に続いてグラフ畳み込みによる精緻化を適用することで、3次元形状再構築にどの程度の性能向上が得られるか？
RQ4提案手法は、1枚画像からの3次元形状予測ベンチマークにおいて、先行研究の最先端手法と比較してどのように優れているか？
RQ5このシステムは、合成データや単一のオブジェクトに限定された設定を超えて、実世界の多様で複雑なシーンにも一般化可能か？

主な発見

Mesh R-CNN は、ShapeNet ベンチマークにおいて1枚画像からの3次元形状予測で最先端の性能を達成し、先行手法を上回っている。
メッシュ予測ブランチは実世界の画像に対しても良好に一般化できており、Pix3D データセットへの適用によってそれが裏付けられている。
グラフ畳み込みネットワークを用いたメッシュ精緻化により、ベースライン手法と比較してメッシュ品質および幾何的詳細が向上している。
システムは、トポロジー構造が異なるメッシュを正確に予測できており、複雑な形状の正確なモデリングを可能にしている。
エンドツーエンドの訓練により、オブジェクト検出と3次元形状予測の両タスクが共同最適化され、両方の性能が向上している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。