[論文レビュー] PRISM: Personalized Refinement of Imitation Skills for Manipulation via Human Instructions
PRISMは模倣学習から操作ポリシーを初期化し、言語ガイド付き強化学習と sparse な人間フィードバックで微調整して、新しい目標と制約に合わせて個人化・適応を図る。
This paper presents PRISM: an instruction-conditioned refinement method for imitation policies in robotic manipulation. This approach bridges Imitation Learning (IL) and Reinforcement Learning (RL) frameworks into a seamless pipeline, such that an imitation policy on a broad generic task, generated from a set of user-guided demonstrations, can be refined through reinforcement to generate new unseen fine-grain behaviours. The refinement process follows the Eureka paradigm, where reward functions for RL are iteratively generated from an initial natural-language task description. Presented approach, builds on top of this mechanism to adapt a refined IL policy of a generic task to new goal configurations and the introduction of constraints by adding also human feedback correction on intermediate rollouts, enabling policy reusability and therefore data efficiency. Results for a pick-and-place task in a simulated scenario show that proposed method outperforms policies without human feedback, improving robustness on deployment and reducing computational burden.
研究の動機と目的
- 模倣学習と強化学習を融合させたデータ効率の高い操作タスクパイプラインを提供する。
- 自然言語指示と人間のフィードバックを通じたタスク適応と個人化を可能にする。
- 微調整中の安定性とサンプル効率を改善するために、模倣事前情報を保持する。
- ILのみ・RLのみのベースラインよりも頑健性とデータ効率の改善を実証する。
提案手法
- 模倣学習によって汎用的な操作ポリシーを形成するために遠隔操作デモを収集する。
- 再帰的ガウス混合モデル(BC-GMM-RNN)を用いたビヘイビア・クローンニングで初期ポリシーを訓練する。
- ILベースのベースラインに近づくようなビヘイビアマッチング正則化項を用いたPPOベースの強化学習で模倣ポリシーを微調整する。
- Eurekaを介して自然言語プロンプトを報酬設計へ翻訳し、基本報酬・補助報酬・個人化報酬を統合して微調整したポリシーを個人化する。
- 自動化されたEurekaプロンプトと checkpoint での人間フィードバックを組み合わせたハイブリッドプロンプトループを用いて、ユーザ意図との一致を加速する。
- シミュレーション環境でのピック&プレースタスクでパイプラインを評価し、ILのみ・RLのみ・指示誘導微調整ベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1模倣事前情報と言語ガイド付きRLは新しい目標と制約の下でデータ効率と頑健性を改善できるか?
- RQ2個人化されたポリシー微調整中に sparse な人間フィードバックは収束を加速し最終タスク性能を向上させるか?
- RQ3指示条件付き報酬設計が目標仕様と操作制約の適応に与える影響は?
- RQ4PRISMはシミュレーションの操作タスクでILのみ・RLのみアプローチとどう比較されるか?
主な発見
- ILベースラインは評価タスクで微調整前に21.2%のタスク成功を達成。
- IL事前情報を用いたRL微調整は、29.4分で5,000個の並列環境を用いて98%の成功へ収束。
- 新しい目標(卓上配置)と垂直性制約という条件へ個人化適応し、2回の自動Eurekaサイクルと sparse な人間プロンプトで96.8%の成功を達成。
- 完全自動のEurekaのみの個人化は、人間のフィードバックを含むハイブリッドプロンプト手法と比較して性能不足。
- PRISMはベースラインより優れており、模倣事前情報を保持しつつターゲットタスクの微調整を可能にすることでデータ効率と頑健性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。