[論文レビュー] CPS++: Improving Class-level 6D Pose and Shape Estimation From Monocular Images With Self-Supervised Learning
CPS++は、クラスレベルの単眼6Dポーズとメトリック形状推定をエンドツーエンドの微分可能パイプラインで導入し、合成データから実データへのドメインギャップを橋渡しする自己監視拡張を組み込む。これにより、最先端のポーズ精度を達成し、各オブジェクトクラスに対して学習可能な3D形状表現を提供する。
Contemporary monocular 6D pose estimation methods can only cope with a handful of object instances. This naturally hampers possible applications as, for instance, robots seamlessly integrated in everyday processes necessarily require the ability to work with hundreds of different objects. To tackle this problem of immanent practical relevance, we propose a novel method for class-level monocular 6D pose estimation, coupled with metric shape retrieval. Unfortunately, acquiring adequate annotations is very time-consuming and labor intensive. This is especially true for class-level 6D pose estimation, as one is required to create a highly detailed reconstruction for all objects and then annotate each object and scene using these models. To overcome this shortcoming, we additionally propose the idea of synthetic-to-real domain transfer for class-level 6D poses by means of self-supervised learning, which removes the burden of collecting numerous manual annotations. In essence, after training our proposed method fully supervised with synthetic data, we leverage recent advances in differentiable rendering to self-supervise the model with unannotated real RGB-D data to improve latter inference. We experimentally demonstrate that we can retrieve precise 6D poses and metric shapes from a single RGB image.
研究の動機と目的
- クラスレベルの単眼6Dポーズ推定が、インスタンス固有モデルを超えてスケールする必要性を動機づける。
- 単一のRGB画像から6Dポーズとメトリック形状を共同推定する CPS を提案する。
- AtlasNetベースのクラス別形状潜在空間を導入し、オブジェクト形状を再構成する。
- 自己監視型(synthetic-to-real)ドメイン転送を可能にし、注釈負担を削減する。
提案手法
- RetinaNetを用いて2Dの関心領域を検出し、RoIAlignで各検出の特徴を抽出する。
- 各検出について、allocentric回転 q_a、2D画像中心点、深度 z、メトリックサイズ (w,h,l)、およびクラスごとの32次元の形状潜在 e を予測する。
- 形状をクラスごとに訓練したAtlasNetエンコーダ/デコーダで表現し、クラス平均潜在形状 m_c からの形状オフセットを予測する。
- 3Dへバックプロジェクションして3Dポーズを得、予測点云とGround-truth点群との間のChamfer距離に基づく微分可能な3D整列損失を使用する。
- 3D空間でポーズと形状パラメータを jointly 最適化する3D点群整列損失を導入する。
- 予測メッシュから微分可能なRGB-Dペアをレンダリングし、実データのラベルなしデータと幾何およびマスクベースの整合を課す自己監視拡張(CPS++)を実装する。
- 合成データの監督とSelf6Dに触発された自己監督を組み合わせて、ドメインギャップを brid ge する。
実験結果
リサーチクエスチョン
- RQ1訓練時に見ていないクラスレベルのオブジェクトカテゴリに対して、単眼ネットワークが6Dポーズとメトリック形状を推定できるか。
- RQ2微分可能な3D整列損失を用いたエンドツーエンドの学習は、ポーズ精度と形状品質を改善するか。
- RQ3実データのラベルなしRGB-Dデータを用いた自己監視学習は、クラスレベルの6Dポーズ推定におけるsynthetic-to-realドメインギャップを埋めるか。
- RQ4クラスごとの3D形状潜在表現を学習して、クラス内のインスタンス差に一般化できるか。
主な発見
- 新規の CPS フレームワークを提案し、6Dポーズ、オブジェクトスケール、およびクラス特有の形状潜在を同時に予測することで、単一のRGB画像から3D形状を再構成可能とする。
- 差分可能な3D整列損失を導入し、3D空間での整列を直接最適化することでポーズ精度を向上させる。
- 現実のラベルなしRGB-Dデータを活用してsynthetic-to-realギャップを縮小する自己監視拡張 CPS++ を実証する。
- クラスごとのAtlasNetベースの形状空間はメトリック形状推定を可能にし、学習済みの形状分布内に留まるよう正則化できることを示す。
- クラスレベルの6Dポーズ推定における自己監視学習を促進するため、3万件超の現実RGB-Dサンプルを収集・公開する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。