[論文レビュー] From Language to Goals: Inverse Reinforcement Learning for Vision-Based Instruction Following
本論文は Language-Conditioned Reward Learning (LC-RL) を提案し、自然言語の指示を MaxEnt IRL を介して移転可能な報酬関数として grounding し、報酬が新しいタスクやシーンへ一般化する一方、言語条件付きポリシーは一般化で劣ることを示す。
Reinforcement learning is a promising framework for solving control problems, but its use in practical situations is hampered by the fact that reward functions are often difficult to engineer. Specifying goals and tasks for autonomous machines, such as robots, is a significant challenge: conventionally, reward functions and goal states have been used to communicate objectives. But people can communicate objectives to each other simply by describing or demonstrating them. How can we build learning algorithms that will allow us to tell machines what we want them to do? In this work, we investigate the problem of grounding language commands as reward functions using inverse reinforcement learning, and argue that language-conditioned rewards are more transferable than language-conditioned policies to new environments. We propose language-conditioned reward learning (LC-RL), which grounds language commands as a reward function represented by a deep neural network. We demonstrate that our model learns rewards that transfer to novel tasks and environments on realistic, high-dimensional visual environments with natural language commands, whereas directly learning a language-conditioned policy leads to poor performance.
研究の動機と目的
- 自然言語コマンドを直接ポリシー条件付けではなく報酬関数として grounding する動機づけ。
- タスクと環境を超えて一般化する言語条件付き報酬を学習するスケーラブルな方法の開発。
- 報酬 grounding アプローチが novel なシーンやタスクへ言語条件付きポリシーより転移しやすいかを評価。
提案手法
- 複数タスクを共有する言語条件付き報酬関数 r(o, a, L) を学習するために MaxEnt IRL を採用。
- 報酬を panoramic な画像観測と言語入力を受け取るニューラルネットワークで表現;言語は LSTM 埋め込み、画像はビュー間で重みを共有する CNN を使用。
- ダイナミクスが既知であることを前提とする正確な IRL 勾配更新(動的計画法を介して expert 軌道分布をタスク間で一致させる)を用いて訓練。
- タスク間で観測/行動空間を共有し、言語 L をタスクコンテキストとして grounding するマルチタスク設定により、タスク間転送を可能にする。
- LC-RL をポリシーベースのベースライン(最適ポリシーのクローン、AGILE、GAIL 変種)およびオラクル報酬回帰ベースラインと比較。

実験結果
リサーチクエスチョン
- RQ1IRL によって学習された言語条件付き報酬は、言語条件付きポリシーより novel なタスクや未見の環境へ転移させやすいか?
- RQ2視覚ベースの指示追従において、報酬関数としての言語 grounding は異なるシーンやタスク構成間で堅牢な一般化を実現できるか?
- RQ3LC-RL はポリシーベースの手法やオラクル報酬回帰と比較して一般化性能でどうなるか?
- RQ4訓練時にダイナミクスが既知でテスト時には未知である場合、厳密 IRL 学習の実際的な制約とトレードオフは何か?
主な発見
| Method | Train: PICK | Train: NAV | Train: Total | Test-Task: PICK | Test-Task: NAV | Test-Task: Total | Test-House: PICK | Test-House: NAV | Test-House: Total |
|---|---|---|---|---|---|---|---|---|---|
| 最適ポリシーのクローン | 20.7 | 61.6 | 40.3 | 10.1 | 29.4 | 19.6 | 0.0 | 17.2 | 8.5 |
| AGILE | 0.0 | 40.9 | 18.0 | 0.0 | 34.1 | 16.8 | 0.0 | 30.6 | 15.1 |
| GAIL-Exact | 59.4 | 73.5 | 66.9 | 49.1 | 50.4 | 49.8 | 23.5 | 35.4 | 28.3 |
| LC-RL(私たちの手法) | 63.8 | 69.7 | 66.9 | 56.7 | 47.8 | 51.9 | 32.1 | 39.4 | 36.4 |
| 報酬回帰(Oracle) | 87.0 | 85.0 | 86.1 | 82.5 | 67.0 | 74.1 | 70.6 | 62.3 | 65.7 |
- LC-RL は新しいタスクと未見の家での一般化において強力で、テスト設定でポリシーベースのベースラインを上回る。
- 報酬回帰(オラクル報酬)は絶対的な性能で高いが、学習された報酬と真の報酬のギャップを示し、LC-RL はオラクル監視なしでも競争力を維持。
- SUNCG の屋内ナビゲーション/ピック・アンド・プレースタスクで、LC-RL は Test-Task で総合成功率 66.9%、Test-House で 51.9% を達成し、複数の設定で GAIL-Exact および AGILE ベースラインを上回る。
- ポリシークローンは訓練・テストの両方のシナリオで性能が劣る。言語条件付きタスクのゼロショット転送の難しさを浮き彫りにする。
- 学習済み報酬を DQN で再最適化することは難しく、正確な解法(Q-iteration)はモデルフリー RL で学習された報酬よりも大幅に強力な性能を提供する。一方、ダイナミクスが既知であれば報酬回帰は形状設計の恩恵を受け得る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。