QUICK REVIEW

[論文レビュー] Rethinking Reprojection: Closing the Loop for Pose-aware ShapeReconstruction from a Single Image

Rui Zhu, Hamed Kiani Galoogahi|arXiv (Cornell University)|Jul 15, 2017

3D Shape Modeling and Analysis参考文献 23被引用数 40

ひとこと要約

本稿では、高価な3D形状およびポーズラベルの代わりに安価な2Dシルエットアノテーションを活用することで、単一の自然画像からのポーズに配慮した3D形状再構成のための新規フレームワークを提案する。再投影損失を導入し、予測された3D形状とポーズの間の再投影シルエットと真値画像シルエットの差を最小化することで、最新の手法と比較してポーズ推定および3D形状再構成の両性能を顕著に向上させる。

ABSTRACT

An emerging problem in computer vision is the reconstruction of 3D shape and pose of an object from a single image. Hitherto, the problem has been addressed through the application of canonical deep learning methods to regress from the image directly to the 3D shape and pose labels. These approaches, however, are problematic from two perspectives. First, they are minimizing the error between 3D shapes and pose labels - with little thought about the nature of this label error when reprojecting the shape back onto the image. Second, they rely on the onerous and ill-posed task of hand labeling natural images with respect to 3D shape and pose. In this paper we define the new task of pose-aware shape reconstruction from a single image, and we advocate that cheaper 2D annotations of objects silhouettes in natural images can be utilized. We design architectures of pose-aware shape reconstruction which re-project the predicted shape back on to the image using the predicted pose. Our evaluation on several object categories demonstrates the superiority of our method for predicting pose-aware 3D shapes from natural images.

研究の動機と目的

高価で誤差の生じやすい3Dアノテーションに依存する従来の3D形状およびポーズ再構成手法の限界を解消すること。
3D CADラベルの代わりに、自然画像からの大規模かつ安価な2Dシルエットアノテーションを用いてディープネットワークの学習を可能にすること。
合成画像と実画像の間の「レンダリングギャップ」を、シルエットのスーパービジョンで実画像上でファインチューニングすることで埋める。
予測された形状と観測されたシルエットの整合性を強制する再投影に基づく損失を用いて、ポーズと3D形状の予測を同時に最適化すること。
3D真値を必要とせずに、実画像におけるポーズ推定および3D形状再構成の性能を向上させること。

提案手法

合成レンダリング画像と2Dオブジェクトシルエットでアノテートされた実自然画像を組み合わせる新しいトレーニングパラダイムを提案。
予測された3D形状（予測ポーズ下で再投影されたもの）と真値画像シルエットの差を測定する、新規の再投影損失を導入。
両方のデータ（合成データと実データ）とシルエットのスーパービジョンを用いて、事前学習済みネットワーク（p-TLおよびp-3D-VAE-GAN）をエンドツーエンドでファインチューニング。
再投影損失を用いて、ボクセル化された3D形状と6自由度ポーズパラメータをトレーニング中に同時に最適化。
ファインチューニング中に固定されたジェネレータネットワークを採用し、形状の有効性を維持し、劣化を防ぐ。
最適化の安定化のため、レンダリング済み画像（監視用）と実画像（再投影損失用）を混合したバッチを用いる。

実験結果

リサーチクエスチョン

RQ13D真値が存在しない状況でも、自然画像内の2Dシルエットアノテーションを有効に活用して3D形状およびポーズ再構成ネットワークを学習可能か？
RQ2予測されたシルエットと真値シルエットの再投影誤差を最小化することで、標準的な3D再構成損失と比較して、より良い3D形状およびポーズ推定が達成できるか？
RQ3再投影損失によるポーズと形状の共同最適化は、独立した学習と比較して、実画像における性能向上をもたらすか？
RQ4シルエットアノテーションで実画像上でファインチューニングすることで、「レンダリングギャップ」はどの程度埋まるか？
RQ5提案手法は、ポーズ推定と整合された形状再構成の両方の性能を同時に向上させるか？

主な発見

p-TLを用いた航空機カテゴリでは、2D APが20.5%相対的に向上（0.589 → 0.704）し、より良いシルエットマッチングを示している。
チェアカテゴリでは、2D APが0.844から0.849に、3D APが0.531から0.552に上昇し、両指標で一貫した向上を示している。
p-TLにおける回転精度（Acc π/6）は、航空機で0.67から0.68に、チェアで0.76から0.80に向上し、より良いポーズ推定を示している。
中央値回転誤差は、航空機で23.0°から17.3°に、チェアで8.2°から8.3°に減少し、ポーズ誤差が低減していることを示している。
航空機の中央値トランスレーション誤差は、フレームサイズ比で0.092から0.077に低下し、局所化精度が向上している。
p-3D-VAE-GANを用いた航空機カテゴリでは、3D APが0.183から0.249に向上し、より良い整合された形状再構成を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。