[論文レビュー] URDF-Anything+: Autoregressive Articulated 3D Models Generation for Physical Simulation
URDF-Anything+は、単一画像から部品幾何と関節パラメータを自動回帰的に予測することで完全に実行可能な関節URDFモデルを直接生成し、Real-Follow-Simを可能にする。現実-フォロー-実行はオンライン適応なしでシミュレーションと現実世界のポリシー移行を実現する。
Articulated objects are fundamental for robotics, simulation of physics, and interactive virtual environments. However, reconstructing them from visual input remains challenging, as it requires jointly inferring both part geometry and kinematic structure. We present, an end-to-end autoregressive framework that directly generates executable articulated object models from visual observations. Given image and object-level 3D cues, our method sequentially produces part geometries and their associated joint parameters, resulting in complete URDF models without reliance on multi-stage pipelines. The generation proceeds until the model determines that all parts have been produced, automatically inferring complete geometry and kinematics. Building on this capability, we enable a new Real-Follow-Sim paradigm, where high-fidelity digital twins constructed from visual observations allow policies trained and tested purely in simulation to transfer to real robots without online adaptation. Experiments on large-scale articulated object benchmarks and real-world robotic tasks demonstrate that outperforms prior methods in geometric reconstruction quality, joint parameter accuracy, and physical executability.
研究の動機と目的
- ロボティクスとシミュレーションにおける関節を持つ3D表現の構成要素としての機能的な表現の必要性を動機づける。
- 視覚入力を実行可能なURDFモデルへと一連のパイプラインで変換するエンドツーエンドの実装を開発する。
- 潜在空間3Dにおける自動回帰的拡散を用いて部品幾何と関節パラメータを同時に生成する。
- デジタルツインを介してシミュレーションの忠実度を現実世界のシーンと整合させるReal-Follow-Simを導入する。
- ベンチマークと実機ロボット上で、幾何品質・関節パラメータの精度・実行可能性の最先端を示す。
提案手法
- 事前学習済みDINOv3エンコーダで画像特徴を抽出する。
- TripoSGで完全な物体幾何を再構成し、グローバル3D潜在 z_whole を取得する。
- 画像特徴と前の部品を条件として、各部品の幾何学的潜在 z_3D^(k) と関節 J^(k) を自動回帰的に生成する。
- 共有潜在拡散トランスフォーマー(DiT)を用いて部品固有の共有潜在を生成し、次にTripoSGで幾何をデコードし、軽量MLPヘッドで関節パラメータを予測する。
- 生成された部品を統合し、統合幾何を再エンコードして自己回帰コンテキストを更新し、すべての部品が生成されるまで繰り返す。
- 訓練は2段階:1段階目は幾何監視のみ、2段階目はトークン終端と関節監視を用いて幾何と運動学を共同学習。
- Real-Follow-Sim:URDF-Anything+の出力からデジタルツインを構築し、シミュレーションでポリシーを訓練し、オンライン適応なしに現実ロボット上で学習済み軌道を実行する。
実験結果
リサーチクエスチョン
- RQ1ビジョンから完全で実行可能な関節URDFモデルをエンドツーエンドの自動回帰モデルで生成できるか?
- RQ2関節幾何と関節パラメータの同時生成は、既存手法より物理的に有効で実行可能なURDFを高精度で生み出すか?
- RQ3Real-Follow-Simは現実世界の幾何とシミュレーション資産を整合させ、ゼロショットのシム対リアルポリシー移行を実現できるか?
- RQ4入力モダリティとリンク順序はジオメトリ再構成と関節精度にどのような影響を与えるか?
- RQ5URDF-Anything+は大規模関節ベンチマークと実機タスクで、幾何品質・関節精度・実行可能性の面でどうなるか?
主な発見
- URDF-Anything+は、比較対象手法の中で最も高い幾何品質を達成し、Parts IoU 0.879、Parts F-Score 0.721、Parts CD 0.033、Whole-object IoU 0.930、F-Score 0.742、CD 0.009 を記録した。
- 関節パラメータ予測精度は軸ごとに優れており、URDF-Anything+は0.129 rad(軸)、0.062 m(原点)、0.225 rad(リミット)で前法より高い。
- URDF-Anything+は幾何再構成と関節パラメータ精度の両方で一貫してベースラインを上回り、より高い物理的に実行可能なURDFを生成する。
- アブレーション研究は、画像と3Dガイダンスの組み合わせが画像だけを用いた場合より幾何と関節予測を改善し、空間一貫性のあるリンク順序の採用が結果を強化することを示す。
- Real-Follow-Simはゼロショットのシム対リアルポリシー移行を可能にし、実世界タスク(例:ノートパソコンの蓋閉め、引き出しの押下)でReal-Follow-Sim下の成功率が従来のSim-to-Realより高くなる。
- 実世界の実験では、URDF-Anything+はReal-Follow-Sim下でArticulate-Anythingより優れており、オンライン適応なしで学習済みポリシーを現実ロボットへ移植できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。