Skip to main content
QUICK REVIEW

[論文レビュー] Category-Level 6D Object Pose Estimation in the Wild: A Semi-Supervised Learning Approach and A New Dataset

Yang Fu, Xiaolong Wang|arXiv (Cornell University)|Jun 30, 2022
Human Pose and Action Recognition被引用数 29
ひとこと要約

本論文は大規模な未ラベルRGBD動画データセットWild6Dと、合成データと実世界動画からのシルエットに基づく監視を組み合わせてカテゴリレベルの6D姿勢と形状を学習するsemi-supervisedモデルRePoNetを提案する。現実データでの3D注釈なしでも野外での強い一般化を達成する。

ABSTRACT

6D object pose estimation is one of the fundamental problems in computer vision and robotics research. While a lot of recent efforts have been made on generalizing pose estimation to novel object instances within the same category, namely category-level 6D pose estimation, it is still restricted in constrained environments given the limited number of annotated data. In this paper, we collect Wild6D, a new unlabeled RGBD object video dataset with diverse instances and backgrounds. We utilize this data to generalize category-level 6D object pose estimation in the wild with semi-supervised learning. We propose a new model, called Rendering for Pose estimation network RePoNet, that is jointly trained using the free ground-truths with the synthetic data, and a silhouette matching objective function on the real-world data. Without using any 3D annotations on real data, our method outperforms state-of-the-art methods on the previous dataset and our Wild6D test set (with manual annotations for evaluation) by a large margin. Project page with Wild6D data: https://oasisyang.github.io/semi-pose .

研究の動機と目的

  • 限られたアノテーションしかない現実世界の制約下で、カテゴリレベルの6D姿勢推定を非制約なシーンで動機づける。
  • 一般化を向上させるために、大規模な未ラベルRGBD動画データセット(Wild6D)を導入する。
  • 微分可能レンダリングを用いて、6D姿勢と3D形状を共同推定するデュアルブランチ網 RePoNetを提案する。
  • 実データの3Dラベルなしで、合成の真実値と実世界のシルエット監視を活用してエンドツーエンドで訓練する。
  • 野外の物体や既存データセットにおいて、ベースラインより著しい性能向上を示す。

提案手法

  • NOCSを中間表現として用い、RGBD特徴を6D姿勢へマッピングする際にインスタンスCADモデルを用いない。
  • NOCSマップを予測するPose Networkと、カテゴリレベルの形状事前形状を変形させるShape Networkを採用する。
  • 前景マスクとシルエットマッチングを行うための、微分可能レンダリングモジュールを統合する。
  • 合成の真実値の監視と実データのシルエットベース損失を組み合わせた半教師あり目的関数で訓練する。
  • RGBD特徴と点座標から各点のNOCS座標を予測する暗黙関数Φ_nocsを活用する。
  • 分離可能な6D姿勢損失(回転、平行移動、スケール)とChamferベースの形状再構成損失を採用して形状を監督する。

実験結果

リサーチクエスチョン

  • RQ1半教師ありアプローチは、現実世界のオブジェクトに対して実データの3D注釈なしでカテゴリレベルの6D姿勢推定を効果的に一般化できるか?
  • RQ2合成データと未ラベルの実RGBD動画でのシルエットベース監視を組み合わせることで、完全に監視されたベースラインより姿勢と形状推定が改善されるか?
  • RQ3NOCSのような中間表現と暗黙の形状変形が、多様なオブジェクトインスタンスへの一般化にどのように影響するか?
  • RQ4微分可能レンダリングとシルエットマッチングが、現実世界のラベルなしデータからの学習に与える影響はどの程度か?

主な発見

  • RePoNetは半教師付き学習により、野外オブジェクト(Wild6Dテストセット)で一貫してベースラインを上回る。
  • シルエットマッチングを介して3Dの実データ地上真実なしの実データを使用すると、完全に注釈済み手法と同等の性能を得られる。
  • Wild6Dは従来のデータセットよりはるかに大規模で多様であり、野外でのカテゴリレベルの姿勢推定の一般化を向上させる。
  • 暗黙のNOCSマッピングとカテゴリメッシュの各点形状変形を微分可能レンダリングと組み合わせることで、ラベルなしデータからの強い監督を提供する。
  • Wild6DとREAL275/ CAMERA25データを用いた半教師あり訓練は、REAL275で完全監視手法に近づくか同等になり、Wild6Dではベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。