[論文レビュー] AnyPlace: Learning Generalized Object Placement for Robot Manipulation
AnyPlace は視覚言語モデルを用いて配置場所を提案し、拡散ベースの局所ポーズ予測器で多様で精密な配置姿勢を生成する。全て合成データで学習され、実機ロボットへの転移性を持つ。
Object placement in robotic tasks is inherently challenging due to the diversity of object geometries and placement configurations. To address this, we propose AnyPlace, a two-stage method trained entirely on synthetic data, capable of predicting a wide range of feasible placement poses for real-world tasks. Our key insight is that by leveraging a Vision-Language Model (VLM) to identify rough placement locations, we focus only on the relevant regions for local placement, which enables us to train the low-level placement-pose-prediction model to capture diverse placements efficiently. For training, we generate a fully synthetic dataset of randomly generated objects in different placement configurations (insertion, stacking, hanging) and train local placement-prediction models. We conduct extensive evaluations in simulation, demonstrating that our method outperforms baselines in terms of success rate, coverage of possible placement modes, and precision. In real-world experiments, we show how our approach directly transfers models trained purely on synthetic data to the real world, where it successfully performs placements in scenarios where other models struggle -- such as with varying object geometries, diverse placement modes, and achieving high precision for fine placement. More at: https://any-place.github.io.
研究の動機と目的
- 多様なオブジェクトと配置モード(挿入、積み重ね、ハンギング)を横断してオブジェクト配置を一般化する。
- 高レベルのVLMを活用して候補配置場所を特定し、低レベルの予測を絞る。
- 完全に合成データで学習し、実世界タスクへのゼロショット転移を実証する。
- 高精度かつモード網羅性を持つ多模态配置予測を達成する。
提案手法
- 二段階パイプライン:高レベルの配置場所提案をVision-Language Model(VLM)で行い、低レベルの細粒度配置姿勢予測器で処理する。
- Molmo VLMを用いて離散的な配置場所を提案し、局所領域を切り出して拡散ベースの姿勢予測器へ入力する。
- 拡散ベースのデコーダがオブジェクトとベース間の複数の相対的なSE(3)変換を予測し、オブジェクト間特徴の交差を Transformer-encoder で処理する。
- 挿入、積み重ね、ハンギングの構成をカバーする1,489オブジェクトの完全合成データセットを作成。
- 訓練損失は翻訳、回転(測地線距離)、Chamfer距離を組み合わせてポーズ refinement を監督。
- ロボット実行パイプラインは grasps に AnyGrasp、動作計画に cuRobo を使用。リジェクションサンプリングで実現可能な把持を保証。
実験結果
リサーチクエスチョン
- RQ1未見のオブジェクトに対してVLMガイド付きの高レベルモジュールが頑健で多模态な配置場所を提供できるか?
- RQ2低レベルモデルを局所領域に制限することは新しい形状への適応性と精度を向上させるか?
- RQ3完全合成データセットはデモなしでも現実世界の配置タスクへ転移できるか?
- RQ4拡散ベースのデコーダはエネルギーベースや回帰ベースのベースラインより多模态配置タスクで優れているか?
- RQ5単一タスク学習と多タスク学習の一般化オブジェクト配置におけるトレードオフは何か?
主な発見
| Methods | Object Stacking | Peg Insertion | Cup Hang | Vial Insertion |
|---|---|---|---|---|
| NSM (Single-task) | 76.57 | 7.63 | 35.54 | 18.70 |
| RPDiff (Single-task) | 80.34 | 22.94 | 92.02 | 16.51 |
| AnyPlace-EBM (Single-task) | 80.04 | 8.44 | 91.57 | 65.64 |
| AnyPlace (Single-task) | 80.16 | 30.95 | 94.80 | 92.74 |
| NSM (Multi-task) | 77.55 | 7.69 | 35.22 | 9.87 |
| RPDiff (Multi-task) | 80.21 | 22.33 | 94.05 | 24.26 |
| AnyPlace-EBM (Multi-task) | 78.95 | 10.75 | 90.87 | 57.24 |
| AnyPlace (Multi-task) | 78.28 | 24.99 | 94.12 | 75.25 |
- AnyPlace は合成タスクでの成功率とモード網羅性の点で NSM、RPDiff、AnyPlace-EBM のベースラインを上回る。
- 単一タスク評価では、AnyPlace はバイアル挿入とカップ掛けの性能が高く、それぞれ92.74%と94.80% を達成。
- 多タスク評価でも AnyPlace は堅牢な性能を維持し、バイアル挿入75.25%、カップ掛け94.12% を達成。
- 拡散ベースの AnyPlace モデルはエネルギーベースのベースラインより多模态配置の網羅性と精度が高く、特に難しいタスク(バイアル挿入)で顕著。
- 現実世界実験ではバイアル挿入の成功率が80%となり、合成訓練から現実世界へのシムツーリアル転移を実証。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。