[論文レビュー] Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos
PSIはシミュレーションで軌道データをフィルタリングしてタスク指向の把握と把握後ポリシーを生成することで、人間のビデオからモジュール型操作を学習し、ロボットデータなしで実機操作を可能にします。
The ability to learn manipulation skills by watching videos of humans has the potential to unlock a new source of highly scalable data for robot learning. Here, we tackle prehensile manipulation, in which tasks involve grasping an object before performing various post-grasp motions. Human videos offer strong signals for learning the post-grasp motions, but they are less useful for learning the prerequisite grasping behaviors, especially for robots without human-like hands. A promising way forward is to use a modular policy design, leveraging a dedicated grasp generator to produce stable grasps. However, arbitrary stable grasps are often not task-compatible, hindering the robot's ability to perform the desired downstream motion. To address this challenge, we present Perceive-Simulate-Imitate (PSI), a framework for training a modular manipulation policy using human video motion data processed by paired grasp-trajectory filtering in simulation. This simulation step extends the trajectory data with grasp suitability labels, which allows for supervised learning of task-oriented grasping capabilities. We show through real-world experiments that our framework can be used to learn precise manipulation skills efficiently without any robot data, resulting in significantly more robust performance than using a grasp generator naively.
研究の動機と目的
- 人間のビデオから操作スキルを学習させ、ロボットデータの必要性を減らす。
- 把持と把握後運動をモジュール化して embodiment ギャップに対処する。
- タスク適合的な把持を保証するためのシミュレーションベースのフィルタリングを導入する。
- RGB-D入力から把持後の軌道と把握スコアを予測するポリシーを学習する。
提案手法
- embodiment 非依存の運動軌跡として6-DoF物体姿勢でデモを表現する。
- 軌道をフィルタリングし、軌道ごとの把持適合ラベルを割り当てるシミュレーションステップを使用する。
- RGB画像、物体マスク、2Dゴールポイントから6-DoFの把 grasp 後軌道とK個の把持スコアを出力する行動クローンポリシーを訓練する。
- 学習した把持スコア付け器を外部の把持生成器と組み合わせてモジュール式実行パイプラインを構築する。
- モデルベースのFoundationPoseとモデルフリーICPの2つの姿勢追跡パイプラインを評価し、フロー vs 直接6D姿勢ターゲットを比較する。

実験結果
リサーチクエスチョン
- RQ1クロス embodiment 模倣は人間のビデオだけを用いて正確な把持前処理操作を学習できるか。
- RQ2シミュレーションベースのフィルタリングはタスク適合的な把持を生み出しポリシー性能を向上させるか。
- RQ36-DoF姿勢は人間のビデオから学習する際にフローより優れた表現か。
- RQ4PSIは異なるロボット embodimentへどのように一般化するか。
- RQ5HOI4Dデータでの事前学習がサンプル効率に与える影響は何か。
主な発見
| Method | P&P | Pour | Stir | Draw |
|---|---|---|---|---|
| No trajectory filtering (FP) | 6/20 | 12/20 | 16/20 | 12/20 |
| Naive grasp (FP) | 5/20 | 8/20 | 10/20 | 1/20 |
| Ours (FP) | 16/20 | 13/20 | 20/20 | 12/20 |
| No trajectory filtering (ICP) | 10/20 | 8/20 | 8/20 | 0/20 |
| Naive grasp (ICP) | 4/20 | 7/20 | 11/20 | 0/20 |
| Ours (ICP) | 15/20 | 13/20 | 18/20 | 0/20 |
- PSIはロボットデータなしで訓練された実世界の操作ポリシーを実現し、素朴な把持ベースラインよりも性能が高い。
- 軌道フィルタリングとタスク指向の把持スコアリングは4つのタスクで成功率を大幅に向上させる。
- 把持後アクションの直接的な6-DoF姿勢予測はフローベースのアプローチより優れている。
- HOI4Dでの事前学習はほとんどのタスクで強い効果をもたらし、pourは回転に比較的焦点が当たる。
- PSIはxArm7、Franka Panda、Kinova Gen3、UR5eの複数ロボット embodimentにまたがって一般化し頑健な結果を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。