Skip to main content
QUICK REVIEW

[論文レビュー] Look Before You Leap: Bridging Model-Free and Model-Based Reinforcement Learning for Planned-Ahead Vision-and-Language Navigation

Xin Wang, Wenhan Xiong|arXiv (Cornell University)|Mar 21, 2018
Multimodal Machine Learning Applications参考文献 32被引用数 22
ひとこと要約

本論文は、視覚・言語ナビゲーションのためのモデルフリーとモデルベースの深層強化学習を統合するハイブリッド強化学習フレームワーク、強化予測計画(RPA)を提案する。学習済みの環境モデルと先読みポリシーを組み合わせて将来の状態と報酬をシミュレートすることで、RPAは実世界のRoom-to-Room(R2R)データセットにおけるナビゲーション性能と一般化性能を顕著に向上させ、未学習の環境においてモデルフリーのベースラインと比較して相対的に14.5%の成功確率向上を達成し、最先端の結果をもたらした。

ABSTRACT

Existing research studies on vision and language grounding for robot navigation focus on improving model-free deep reinforcement learning (DRL) models in synthetic environments. However, model-free DRL models do not consider the dynamics in the real-world environments, and they often fail to generalize to new scenes. In this paper, we take a radical approach to bridge the gap between synthetic studies and real-world practices---We propose a novel, planned-ahead hybrid reinforcement learning model that combines model-free and model-based reinforcement learning to solve a real-world vision-language navigation task. Our look-ahead module tightly integrates a look-ahead policy model with an environment model that predicts the next state and the reward. Experimental results suggest that our proposed method significantly outperforms the baselines and achieves the best on the real-world Room-to-Room dataset. Moreover, our scalable method is more generalizable when transferring to unseen environments.

研究の動機と目的

  • モデルフリー強化学習の実世界における視覚・言語ナビゲーションタスクにおける一般化ギャップを解消すること。
  • 内部の環境モデルを用いて将来の状態と報酬をシミュレートすることで、体化エージェントが先読み計画を可能にすること。
  • ハイブリッドなモデルフリーとモデルベースの学習により、未学習の環境におけるナビゲーション成功確率と耐障害性を向上させること。
  • 既存のモデルフリー手法を上回るスケーラブルで一般化可能な手法を構築すること。

提案手法

  • RPAフレームワークは、現在の観測と行動から次の状態と報酬を予測する学習済みの環境モデルとモデルフリーのポリシーを統合する。
  • 先読みモジュールは環境モデルを用いて複数ステップの軌道をシミュレートし、行動選択のための期待累積報酬を計算する。
  • 環境モデルは、状態遷移誤差と報酬予測誤差の両方を最小化するように、デモンストレーションデータを用いた教師あり学習で訓練される。
  • 最終的なポリシーは、密度の高い割引報酬信号に成功のバイナリ信号を組み合わせたものを使って、プロキシポリシーオプティマイゼーション(PPO)によりエンドツーエンドで訓練される。
  • 訓練の安定化とサンプル効率の向上を図るため、カリキュラム学習戦略を活用する。
  • 事前に訓練された環境モデルを新しい環境で再利用可能であるため、再訓練なしにスケーラブルな展開が可能になる。

実験結果

リサーチクエスチョン

  • RQ1モデルフリーとモデルベースの強化学習を統合することで、実世界の視覚・言語ナビゲーションにおける性能が向上するか?
  • RQ2学習済みの環境モデルを用いた先読み計画は、未学習の環境への一般化を向上させるか?
  • RQ3シミュレートされた将来の軌道の統合は、ナビゲーションの成功確率と耐障害性にどのような影響を与えるか?
  • RQ4ナビゲーション誤差と成功確率の両面で性能を最大化する報酬形状戦略は何か?
  • RQ5提案手法は、新しい未学習環境へ効果的にスケーリングおよび転送可能か?

主な発見

  • RPAモデルはR2R検証用未学習セットで53.5%の成功確率を達成し、最良のモデルフリー基準と比較して相対的に15.5%の向上を示した。
  • テストセットでは、RPAモデルが28.9%の成功確率を達成し、モデルフリー基準と比較して相対的に14.5%の向上を示した。
  • モデルベースのコンponentは一般化性能を顕著に向上させ、未学習環境での性能向上が、学習済み環境でのものよりも顕著に大きかった。
  • 環境モデルは約500回の訓練イテレーション後に安定して収束し、状態遷移と報酬予測誤差の両方が安定した値に低下した。
  • 割引報酬に成功信号を組み合わせた(Discounted & Success)戦略が最も優れた性能を示し、グローバル距離報酬やバイナリ成功のみの報酬よりも優れていた。
  • アブレーションスタディにより、特に未学習環境において、先読みモジュールが性能向上に不可欠であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。