QUICK REVIEW

[論文レビュー] Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation

Marcel Torne, Anthony Simeonov|arXiv (Cornell University)|Mar 6, 2024

Manufacturing Process and Optimization被引用数 5

ひとこと要約

RialTo は実世界とシミュレーションのデジタルツインを構築し、実世界のデモンストレーションからシミュレーションへRLをブートストラップする逆蒸留を用い、再度実世界へ蒸留して限られた人間データで頑健なロボット操作ポリシーを得る。

ABSTRACT

Imitation learning methods need significant human supervision to learn policies robust to changes in object poses, physical disturbances, and visual distractors. Reinforcement learning, on the other hand, can explore the environment autonomously to learn robust behaviors but may require impractical amounts of unsafe real-world data collection. To learn performant, robust policies without the burden of unsafe real-world data collection or extensive human supervision, we propose RialTo, a system for robustifying real-world imitation learning policies via reinforcement learning in "digital twin" simulation environments constructed on the fly from small amounts of real-world data. To enable this real-to-sim-to-real pipeline, RialTo proposes an easy-to-use interface for quickly scanning and constructing digital twins of real-world environments. We also introduce a novel "inverse distillation" procedure for bringing real-world demonstrations into simulated environments for efficient fine-tuning, with minimal human intervention and engineering required. We evaluate RialTo across a variety of robotic manipulation problems in the real world, such as robustly stacking dishes on a rack, placing books on a shelf, and six other tasks. RialTo increases (over 67%) in policy robustness without requiring extensive human data collection. Project website and videos at https://real-to-sim-to-real.github.io/RialTo/

研究の動機と目的

複雑で家庭内のような環境における頑健な操作ポリシーを得るための人間の労力を削減する。
最小限の危険な現実データで、物体の姿勢、歪み、視覚的な妨害があっても頑健なポリシー学習を可能にする。
現実とシミュレーションのギャップを、現実世界のデモンストレーションをシミュレーションへ、そして戻すことで橋渡しする。
ポリシー学習のために正確なデジタルツインを生成する簡易な GUI ワークフローを提供する。

提案手法

実世界の場面から幾何学的・物理的に現実的なシミュレーション環境を、3D 再構成と関節運動・物理パラメータを追加する GUI を用いて構築する。
実世界のデモンストレーションを優先状態のシミュレーション軌道に変換するため、逆蒸留を適用して RL の微調整を行う。
希薄報酬と模倣学習項を用いて、シミュレーション内で優先状態 RL ポリシーを微調整し、シミュレーションのデモを用いて探索をバイアスする。
教師-生徒蒸留を介して、実センサー観測上で動作する状態ベースのポリシーへシミュレーションポリシーを蒸留し、実デモンストレーションと協調訓練する。
8つの操作タスクにおける、姿勢の変化・視覚的干渉要因・物理的乱れに対する頑健性を評価する。

実験結果

リサーチクエスチョン

RQ1RialTo は、実世界のデモンストレーションが限られていても、シミュレーションベースの高速微調整を活用して現実世界で頑健な操作ポリシーを得られるか？
RQ2実世界デモンストレーションを共訓練することは、シミュレーションデモだけを用いた場合と比較して現実世界のポリシー性能を改善するか？
RQ3現実→シミュレーションのシーン転送は、訓練の効率と現実世界での高性能のために必要か？
RQ4RialTo のパイプラインは、多様な実世界のシーンやタスクへどれだけ拡張可能か？

主な発見

方法	ランダム化のみ	ディストラクター	撹乱
BC (15 demos)	10 ± 9%	0 ± 0%	0 ± 0%
BC (50 demos)	40 ± 15%	30 ± 16%	20 ± 13%
RialTo (15 demos)	90 ± 9%	70 ± 14%	60 ± 16%

RialTo は、姿勢の変動、妨害要因、撹乱の下で高い現実世界での成功率を達成する（平均 91% 正常時の姿勢ランダム化、77% 妨害要因、75% 撹乱）。
15 デモからの模倣学習は撹乱・干渉下で著しく低下する一方、RialTo は条件を超えて頑健な性能を維持する。
15 件の現実デモデータを用いた共訓練は、シミュレーションデモ共訓だけより難しいタスクで現実世界の性能を改善する。
現実→シミュレーション資産ベースの訓練は、汎用のシミン資産セットで訓練するよりも著しく優れている（ターゲット引き出しタスクで 90% 対 10%）。
15 または 50 のデモを用いた純粋な模倣学習と比較して、RialTo ははるかに少ないデモデータで約 2.5 倍の成功を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。