QUICK REVIEW

[論文レビュー] Learning to Reconstruct Shapes from Unseen Classes

Xiuming Zhang, Zhoutong Zhang|arXiv (Cornell University)|Dec 28, 2018

3D Shape Modeling and Analysis参考文献 3被引用数 80

ひとこと要約

GenReは、2.5D深度、球面マップ補完、ボクセル refinement を分離するモジュラでジオメトリ認識を備えたパイプラインを提案し、単一画像から3D形状を再構成し、未知の物体カテゴリへ一般化する。

ABSTRACT

From a single image, humans are able to perceive the full 3D shape of an object by exploiting learned shape priors from everyday life. Contemporary single-image 3D reconstruction algorithms aim to solve this task in a similar fashion, but often end up with priors that are highly biased by training classes. Here we present an algorithm, Generalizable Reconstruction (GenRe), designed to capture more generic, class-agnostic shape priors. We achieve this with an inference network and training procedure that combine 2.5D representations of visible surfaces (depth and silhouette), spherical shape representations of both visible and non-visible surfaces, and 3D voxel-based representations, in a principled manner that exploits the causal structure of how 3D shapes give rise to 2D images. Experiments demonstrate that GenRe performs well on single-view shape reconstruction, and generalizes to diverse novel objects from categories not seen during training.

研究の動機と目的

訓練クラスを超えた一般化可能な単一画像3D再構成を動機づける。
幾何射影と形状再構成を分離して一般化を向上させる。
2.5D表現、球面マップ、およびボクセル空間を活用して正確な再構成を実現する。
Seen/Unseenクラスで最先端の性能を示し、各コンポーネントの寄与を分析する。

提案手法

固定された幾何射影で結合された3つのカスケードモジュール：深度推定器（2D->2.5D）、球面マップ射影（2.5D->S）、球面マップ補完ネットワーク（S->S）、およびボクセル射影（S->3D）と、それに続くボクセル refinement ネットワーク。
深度は単一のRGB画像から予測され、ビュー中心の2.5Dスケッチを提供し、それを部分的な球面マップに射影する。
補完ネットワークが部分的な球面マップを完成させ、完全な3Dボクセル表現への射影を可能にする。
ボクセル refinement ネットワークが、深度射影と球面マップ射影のボクセル推定を融合して最終的な3D形状を生成する。
すべての射影は固定された幾何操作であり、学習可能な部品は表面幾何のみをモデルすることで一般化を改善する。
訓練はビューア中心で、入力画像の姿勢に合わせて3D監督を行い、未知のカテゴリへより良く一般化する。

実験結果

リサーチクエスチョン

RQ1幾何射影と学習を分離することで、単一画像の3D再構成における未知の物体クラスへの一般化を改善できるか。
RQ22.5Dスケッチと球面マップ表現は、ボクセル空間での直接的な3D完成より一般化を高めるか。
RQ3各モジュールが、 seenとunseenカテゴリで再構成精度にどのように寄与するか。
RQ4ShapeNetの合成データから実画像（Pix3Dデータセット）への移行で手法は頑健か。

主な発見

モデル	既知	未知	バッチ	Vsl	Rfl	Sfa	Tbl	Phn	Cbn	Spk	Lmp	Dsp
DRC (Tulsiani2017)	.072	.112	.100	.104	.108	.133	.199	.168	.164	.145	.188	.142
AtlasNet (Groueix2018)	.059	.102	.100	.104	.098	.130	.146	.149	.158	.131	.173	.127
DRC (Tulsiani2017) - Object-Centered	.092	.120	.109	.121	.107	.129	.132	.142	.141	.131	.156	.129
MarrNet (Wu2017)	.070	.107	.094	.125	.090	.122	.117	.125	.123	.144	.149	.120
Multi-View (Shin2018)	.065	.092	.092	.102	.085	.105	.110	.119	.117	.142	.142	.111
3D Completion	.076	.102	.099	.121	.095	.109	.122	.131	.126	.138	.141	.118
GenRe-1step	.063	.104	.093	.114	.084	.108	.121	.128	.124	.126	.151	.115
GenRe-2step	.061	.098	.094	.117	.084	.102	.115	.125	.125	.118	.118	.110
GenRe (Ours)	.064	.089	.092	.112	.082	.096	.107	.116	.115	.124	.130	.106
GenRe-Oracle	.045	.050	.048	.031	.059	.057	.054	.076	.077	.060	.060	.057
GenRe-SphOracle	.034	.032	.030	.021	.044	.038	.037	.044	.045	.031	.040	.036

GenReはShapeNetベースの実験で、 seenクラスとunseenクラスの両方で最先端の再構成性能を達成する。
2段階の要素分解アプローチ（深度->球面マップ補完->ボクセル射影）は、1ステップの球面マップベースラインより優れている。
実画像（Pix3D）では、未見クラス全体でGenReは一般にベースラインを上回るが、例外もある（ベッド）。
3つのトレーニングカテゴリから学習した深度推定は、新規カテゴリに対して大きな劣化なく一般化する。
球面マップ補完は非可視表面の効果的な完成を可能にし、新しい形状への一般化にも優れる。
ビューア中心の監督は、多くのケースでオブジェクト中心の監督より未知のカテゴリへの一般化をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。