[論文レビュー] Language to Rewards for Robotic Skill Synthesis
本論文は大規模言語モデルを用いて報酬関数を生成し、MuJoCo MPCが最適化して自然言語から多様なロボット技能を合成することを提案する。17タスクを評価し、 primitive-baseline の 50% に対して 90% の成功率を達成。
Large language models (LLMs) have demonstrated exciting progress in acquiring diverse new capabilities through in-context learning, ranging from logical reasoning to code-writing. Robotics researchers have also explored using LLMs to advance the capabilities of robotic control. However, since low-level robot actions are hardware-dependent and underrepresented in LLM training corpora, existing efforts in applying LLMs to robotics have largely treated LLMs as semantic planners or relied on human-engineered control primitives to interface with the robot. On the other hand, reward functions are shown to be flexible representations that can be optimized for control policies to achieve diverse tasks, while their semantic richness makes them suitable to be specified by LLMs. In this work, we introduce a new paradigm that harnesses this realization by utilizing LLMs to define reward parameters that can be optimized and accomplish variety of robotic tasks. Using reward as the intermediate interface generated by LLMs, we can effectively bridge the gap between high-level language instructions or corrections to low-level robot actions. Meanwhile, combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive behavior creation experience where users can immediately observe the results and provide feedback to the system. To systematically evaluate the performance of our proposed method, we designed a total of 17 tasks for a simulated quadruped robot and a dexterous manipulator robot. We demonstrate that our proposed method reliably tackles 90% of the designed tasks, while a baseline using primitive skills as the interface with Code-as-policies achieves 50% of the tasks. We further validated our method on a real robot arm where complex manipulation skills such as non-prehensile pushing emerge through our interactive system.
研究の動機と目的
- 言語と低レベルのロボット制御を、最適化ベースのコントローラへのインタフェースとして報酬関数を用いることで架橋する動機づけ。
- 手作業のプリミティブを使わず、自然言語を通じて非専門家ユーザーが複雑なロボット挙動を操縦できるようにする。
- データ効率の良い、対話的な報酬生成とリアルタイム運動合成を locomotion と manipulation に対してデモンストレーション。
- 仮想の四足歩行・デクストラスマニピュレータプラットフォームと実機での評価。
提案手法
- ψと重み w によってパラメータ化された残余項の加重和として報酬を定義し、柔軟なタスク指定を可能にする (R(s,a)=−∑i wi ni( ri(s,a,ψi) ))。
- 二段階の Reward Translator パイプラインを使用: Motion Descriptor LLM がユーザー入力を運動記述テンプレートに展開し、Reward Coder LLM が実行可能な報酬パラメータコードを生成。
- 言語から報酬を地付けるために二つのLLM主導コンポーネントを用いる: Motion Descriptor(自然言語の運動記述)と Reward Coder(報酬関数コード)。
- MuJoCo MPC (MJPC) をリアルタイム最適化器として用い、積算報酬 J(a1:H) を最大化する運動 actions を合成。
- インタラクティブで反復的なフィードバックをサポートし、報酬と運動をリアルタイムで洗練させることで、ユーザーとの対話を修正可能にする。
実験結果
リサーチクエスチョン
- RQ1LLM主導の報酬インターフェースは自然言語から多様で複雑なロボット運動を生成できるか?
- RQ2報酬をインターフェースとして用い、二段階の言語 grounding が primitive-skill ベースラインと比較して頑健性と表現力を向上させるか?
- RQ3シミュレーションから現実のロボットハードウェアへ性能を保ちながら移行できるか?
- RQ4Motion Descriptor はタスク全体で信頼性の高い性能を達成するために必須か?
- RQ5異なる形態を持つ locomotion と manipulation タスクに対して方法はどのようにスケールするか?
主な発見
- 本手法は設計した17タスクのうちシミュレーションで90%を解決し、50%を解決する primitive-skill ベースラインを上回る。
- Reward Translator と Motion Descriptor を用いた報酬地付けにより、ベースラインより安定性とタスクカバレッジが改善。
- このアプローチは moonwalking のような複雑な技能や dexterous manipulation による蛇口を開ける等のリアルタイム挙動を対話的に合成可能。
- 現実世界のロボットアームでの非把持推進と把持タスクの sim-to-real 移行を実証。
- 数量的には、報酬をインタフェースとして定式化することで、Code-as-Policies ベースラインと比較して大半のタスクカテゴリーで合格率が高い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。