Skip to main content
QUICK REVIEW

[論文レビュー] Text2Reward: Reward Shaping with Language Models for Reinforcement Learning

Tianbao Xie, Siheng Zhao|arXiv (Cornell University)|Sep 20, 2023
Software Engineering Research被引用数 8
ひとこと要約

Text2RewardはLLMsを用いてRLの密集報酬コードをデータなしで生成可能とし、操作と移動のタスクを横断して訓練を導く解釈可能な報酬コードを人間の介入で refinementする。

ABSTRACT

Designing reward functions is a longstanding challenge in reinforcement learning (RL); it requires specialized knowledge or domain data, leading to high costs for development. To address this, we introduce Text2Reward, a data-free framework that automates the generation and shaping of dense reward functions based on large language models (LLMs). Given a goal described in natural language, Text2Reward generates shaped dense reward functions as an executable program grounded in a compact representation of the environment. Unlike inverse RL and recent work that uses LLMs to write sparse reward codes or unshaped dense rewards with a constant function across timesteps, Text2Reward produces interpretable, free-form dense reward codes that cover a wide range of tasks, utilize existing packages, and allow iterative refinement with human feedback. We evaluate Text2Reward on two robotic manipulation benchmarks (ManiSkill2, MetaWorld) and two locomotion environments of MuJoCo. On 13 of the 17 manipulation tasks, policies trained with generated reward codes achieve similar or better task success rates and convergence speed than expert-written reward codes. For locomotion tasks, our method learns six novel locomotion behaviors with a success rate exceeding 94%. Furthermore, we show that the policies trained in the simulator with our method can be deployed in the real world. Finally, Text2Reward further improves the policies by refining their reward functions with human feedback. Video results are available at https://text-to-reward.github.io/ .

研究の動機と目的

  • RLの報酬設計に要する手間とコストを自然言語の目標で削減する。
  • コンパクトな環境表現に基づく密集で実行可能な報酬コードを生成する。
  • 対話的な人間フィードバックによるゼロショット・少数ショットの報酬生成を可能にする。
  • シミュレーションを超えた実機ロボットへの移行と、広範なRLタスクへの適用を実証する。

提案手法

  • 状態・オブジェクト・行動のコンパクトなPython的抽象化で環境を grounding する。
  • 自然言語の目標を密集報酬コード(Pythonで実行可能)へ変換するために大規模言語モデルを使用する。
  • 背景知識と少数ショットの exemplars を組み込んでコード生成を guide する。
  • 生成された報酬コードを実行して構文・実行時エラーを検出し、反復的なLLMフィードバックで refine する。
  • RLロールアウト後の対話的な人間フィードバックを有効にして報酬関数をさらに refine する。
Figure 1: An overview of Text2Reward of three stages: Expert Abstraction provides an abstraction of the environment as a hierarchy of Pythonic classes. User Instruction describes the goal to be achieved in natural language. User Feedback allows users to summarize the failure mode or their preference
Figure 1: An overview of Text2Reward of three stages: Expert Abstraction provides an abstraction of the environment as a hierarchy of Pythonic classes. User Instruction describes the goal to be achieved in natural language. User Feedback allows users to summarize the failure mode or their preference

実験結果

リサーチクエスチョン

  • RQ1LLMによって生成されたゼロショットまたは少数ショットの密集報酬コードは、操作タスクにおいて専門家設計報酬と同等の性能を達成できるか。
  • RQ2曖昧または過不足のある目標状況で、対話的な人間フィードバックは報酬関数の品質とRLの成功を改善するか。
  • RQ3Text2Rewardで訓練したポリシーは extensive retraining なしに実機ロボットハードウェアへ転送可能か。
  • RQ4訓練分布を超える新規の locomotion タスクへ報酬コードは generalize できるか。

主な発見

  • 13件中17件の操作タスクにおいて、Text2Rewardは成功率と収束速度の点で専門家調整報酬と同等または上回る。
  • ゼロショットまたは少数ショットのText2Rewardは4タスクで収束速度または成功率の点で専門家報酬を上回る。
  • MuJoCo移動タスクでText2Rewardは新規の6つの挙動を実現し、成功率は94%以上(人間評価)を記録。
  • Text2Rewardでシミュレーション訓練したポリシーは最小限の調整で実機のFranka Pandaロボットへ展開可能。
  • 対話的なフィードバックはさらに性能向上をもたらし、タスクの曖昧さを解消し、反復を通じて成功率を向上させる。
Figure 2: Learning curves on Maniskill2 under zero-shot and few-shot reward generation settings, measured by task success rate. Oracle means the expert-written reward function provided by the environment; zero-shot and few-shot stands for the reward function is generated by Text2Reward w.o and w. re
Figure 2: Learning curves on Maniskill2 under zero-shot and few-shot reward generation settings, measured by task success rate. Oracle means the expert-written reward function provided by the environment; zero-shot and few-shot stands for the reward function is generated by Text2Reward w.o and w. re

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。