Skip to main content
QUICK REVIEW

[論文レビュー] Differentiable Inverse Graphics for Zero-shot Scene Reconstruction and Robot Grasping

Octavio Arriaga, Proneet Sharma|arXiv (Cornell University)|Feb 4, 2026
Robot Manipulation and Learning被引用数 0
ひとこと要約

要約: 論文は、基本シリーズ分割と物理ベースの微分可能レンダラーを組み合わせた微分可能なニューロ-グラフィックスモデルを提案し、追加の3Dデータやテスト時サンプルなしで、単一のRGBD画像からゼロショットのシーン再構成とロボット把握を実現します。

ABSTRACT

Operating effectively in novel real-world environments requires robotic systems to estimate and interact with previously unseen objects. Current state-of-the-art models address this challenge by using large amounts of training data and test-time samples to build black-box scene representations. In this work, we introduce a differentiable neuro-graphics model that combines neural foundation models with physics-based differentiable rendering to perform zero-shot scene reconstruction and robot grasping without relying on any additional 3D data or test-time samples. Our model solves a series of constrained optimization problems to estimate physically consistent scene parameters, such as meshes, lighting conditions, material properties, and 6D poses of previously unseen objects from a single RGBD image and bounding boxes. We evaluated our approach on standard model-free few-shot benchmarks and demonstrated that it outperforms existing algorithms for model-free few-shot pose estimation. Furthermore, we validated the accuracy of our scene reconstructions by applying our algorithm to a zero-shot grasping task. By enabling zero-shot, physically-consistent scene reconstruction and grasping without reliance on extensive datasets or test-time sampling, our approach offers a pathway towards more data efficient, interpretable and generalizable robot autonomy in novel environments.

研究の動機と目的

  • novel environmentsにおけるデータ効率と解釈性の高いロボット知覚を促進するため、大規模データセットやテスト時サンプルへの依存を減らす。
  • 単一のRGBD画像から見えないオブジェクトを再構成する物理的に基づく逆グラフィックスパイプラインを開発する。
  • 再構成されたシーンを用いてゼロショットの把握を実現し、実ロボットでの計画と実行を可能にする。

提案手法

  • foundationモデルを用いたバウンディングボックスからマスクを得るセグメンテーション駆動のオブジェクト初期化。
  • Laplace、LogN、切断正規事前分布を用いたMAPでのオブジェクト位置とサイズのロバストな楕円体初期化。
  • 制約付きL-BFGSベースの逆問題として、照明、姿勢、スケール、材料を最適化する微分可能シーンレンダリング。
  • ラプラシアン、深度差、体積整合性損失を含む正則化項を持つ cageベースの変形を用いた微分可能メッシュ精練。
  • 深度に対して微分可能なマスクを提供するソフトマスク機能を備えた、RGBDとマスクをレンダリングするJAXベースの微分可能レイトレーサ。
  • 姿勢推定ベンチマークでのゼロショット評価とゼロショットのロボット把握実験。
Figure 1 : (1) The system first observes the scene with an RGBD camera. (2) The RGB image is segmented using a foundation model and an object detector to obtain object masks, which are then combined with the observations to initialize scene geometry. (3) A physics-based differentiable renderer itera
Figure 1 : (1) The system first observes the scene with an RGBD camera. (2) The RGB image is segmented using a foundation model and an object detector to obtain object masks, which are then combined with the observations to initialize scene geometry. (3) A physics-based differentiable renderer itera

実験結果

リサーチクエスチョン

  • RQ1未見オブジェクトを3D学習データなしに、単一のRGBD画像からゼロショットで再構成し把握できるか。
  • RQ2物理ベースの微分可能レンダリングと弱い事前分布が、新規環境での6D姿勢とシーンパラメータ推定をどの程度正確に可能にするか。
  • RQ3提案パイプラインは、姿勢推定のモデルフリーのFew-shotベースラインと比較して、実ロボットでの姿勢精度と把握成功率においてどう差があるか。

主な発見

  • ゼロショット姿勢推定は、FewSOL、CLEVR-POSE、MOPED、LINEMOD-OCCLUDEDのベンチマークで、未見オブジェクトに対して競争力のある性能を示す。
  • YCBオブジェクト10点でのゼロショット把握は、224試行中総合成功率89.28%を達成。
  • 楕円体初期化と3Dライン制約により最適化が安定化し、約300ステップ程度で収束を実現。
  • 微分可能レンダラー(JAXベース)は大幅な速度利得を生み、例としてJAX-sphere 0.12 ms、JAX-mesh 7.8 msが、PyTorch3DやMitsubaと比較して有利。
Differentiable Inverse Graphics for Zero-shot Scene Reconstruction and Robot Grasping

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。