[論文レビュー] Robustness via Retrying: Closed-Loop Robotic Manipulation with Self-Supervised Learning
自己 supervised の画像登録を用いて目標を追跡し再試行を可能にする閉ループ視覚MPCフレームワークを提案し、自己収集データから生の画像で長期的な操作を実現する。
Prediction is an appealing objective for self-supervised learning of behavioral skills, particularly for autonomous robots. However, effectively utilizing predictive models for control, especially with raw image inputs, poses a number of major challenges. How should the predictions be used? What happens when they are inaccurate? In this paper, we tackle these questions by proposing a method for learning robotic skills from raw image observations, using only autonomously collected experience. We show that even an imperfect model can complete complex tasks if it can continuously retry, but this requires the model to not lose track of the objective (e.g., the object of interest). To enable a robot to continuously retry a task, we devise a self-supervised algorithm for learning image registration, which can keep track of objects of interest for the duration of the trial. We demonstrate that this idea can be combined with a video-prediction based controller to enable complex behaviors to be learned from scratch using only raw visual inputs, including grasping, repositioning objects, and non-prehensile manipulation. Our real-world experiments demonstrate that a model trained with 160 robot hours of autonomously collected, unlabeled data is able to successfully perform complex manipulation tasks with a wide range of objects not seen during training.
研究の動機と目的
- 自己教師あり学習を用いて生のRGB観測から長期的なロボット操作を可能にする。
- 予測誤差にもかかわらず目標との整合性を保持してロボットがタスクを継続的に再実行できるようにする。
- 自律的に収集されたデータから人間の監督なしに把持操作と非把持操作の両方を学習する。
- 画像-画像登録に基づく現実的な計画コストを提供し、動画予測に基づく制御を導く。
提案手法
- アクション列に条件づけて未来の観測を予測する動画予測モデルを訓練する。
- 現在の観測を開始画像と目標画像に整列させる自己監視画像登録モデルを開発する。
- 登録された現在位置と目標位置の重み付きピクセル距離として計画コストを定義し、登録品質で更新する。
- 実環境の各ステップで再計画を行うモデル予測制御を用いて再試行を可能にする。
- マルチビュー(ステレオ)設定に拡張して3D目標を定義し、ビュー間でコストを統合する。
- 把持反射を簡易的に組み込み、把持操作と非把持操作を組み合わせた操作を可能にする。
実験結果
リサーチクエスチョン
- RQ1生の視覚観測の自己監視的予測モデルは、時間的に長いロボット操作タスクに使用できるか。
- RQ2学習済みの登録ベースのコストを用いた継続的な再試行は、長距離の物体移動タスクの成功率を改善するか。
- RQ3計画コストとして画像登録を使用することと、OpenCVトラッカーや予測子伝搬とを比較した場合の影響は何か。
- RQ4このアプローチは複数のカメラにスケールし、3D目標の指定を可能にできるか。
主な発見
| 方法 | 短期 | 長期 |
|---|---|---|
| Visual MPC + predictor propagation | 83% | 20% |
| Visual MPC + OpenCV tracking | 83% | 45% |
| Visual MPC + registration network (Ours) | 83% | 66% |
- 登録ベースの計画コストは、予測子伝搬およびOpenCVトラッカーと比較して、時間的に長い操作タスクの性能を大幅に向上させる。
- 登録モジュールによって有効になる閉ループ再試行は、長距離のプッシングタスクで成功率を高める。
- この方法は、監督なしの純粋な自律データから非把持操作と把持/非把持の組み合わせの操作の双方を実現する。
- 未知物体を含む長距離プッシングのベンチマークで、登録ベースの視覚MPCが成功率でOpenCVベースのトラッキングと予測子伝搬を上回った。
- 複数カメラ視点を組み合わせることで3D目標を定義し、単一の視点では不明瞭なタスクを解決できる。
- データ収集時の簡易な把持反射により、把持スキルをプッシュと共に学習でき、より多用途な操作を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。