QUICK REVIEW

[論文レビュー] Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

Xin Wang, Qiuyuan Huang|arXiv (Cornell University)|Nov 25, 2018

Multimodal Machine Learning Applications参考文献 57被引用数 37

ひとこと要約

本稿では、強化学習とサイクル再構成内在報酬を組み合わせることで、局所的および包括的なクロスモーダルマッチングを向上させることで、視覚言語ナビゲーションを強化する、強化付きクロスモーダルマッチング（RCM）フレームワークを提案する。さらに、未知の環境における一般化を向上させるために自己教師付き模倣学習（SIL）を導入し、R2Rベンチマークで最先端の性能を達成し、SPLを10%向上させるとともに、見たことのない環境との性能差を30.7%から11.7%に縮小した。

ABSTRACT

Vision-language navigation (VLN) is the task of navigating an embodied agent to carry out natural language instructions inside real 3D environments. In this paper, we study how to address three critical challenges for this task: the cross-modal grounding, the ill-posed feedback, and the generalization problems. First, we propose a novel Reinforced Cross-Modal Matching (RCM) approach that enforces cross-modal grounding both locally and globally via reinforcement learning (RL). Particularly, a matching critic is used to provide an intrinsic reward to encourage global matching between instructions and trajectories, and a reasoning navigator is employed to perform cross-modal grounding in the local visual scene. Evaluation on a VLN benchmark dataset shows that our RCM model significantly outperforms previous methods by 10% on SPL and achieves the new state-of-the-art performance. To improve the generalizability of the learned policy, we further introduce a Self-Supervised Imitation Learning (SIL) method to explore unseen environments by imitating its own past, good decisions. We demonstrate that SIL can approximate a better and more efficient policy, which tremendously minimizes the success rate performance gap between seen and unseen environments (from 30.7% to 11.7%).

研究の動機と目的

視覚言語ナビゲーション（VLN）におけるクロスモーダルマッチングの課題に対処すること。ここでは、エージェントが言語指示と視覚的状況およびトラジェクトリを一致させる必要がある。
VLNにおけるフィードバックの不適切な定式化問題を軽減すること。ここでは、ゴールに到達した場合にのみ成功が報酬として与えられ、ナビゲーション中に指示の整合性が無視される。
見たことのない環境における一般化の主要な問題である、見たことのある環境と見たことのない環境の間の性能差を縮小すること。
強化学習と自己教師付き模倣学習を組み合わせた、モジュラでモデルに依存しないフレームワークを構築し、新しい環境における生涯学習を可能にすること。

提案手法

RCMは、トラジェクトリが元の言語指示をどれだけよく再構成できるかを評価する内在的信号として、サイクル再構成報酬を導入し、包括的なクロスモーダル整合性を強制する。
推論ナビゲーターは、視覚的特徴と文脈的文の情報を注目することで、局所的なクロスモーダルマッチングを実行し、履歴に配慮したアテンションを用いて、部分的な指示と視覚的状況を一致させる。
エージェントは、環境の外在的報酬（成功報酬）と内在的サイクル再構成報酬の両方を用いて強化学習で訓練され、ポリシー学習を向上させる。
SILは、マッチングクリティックを介して選別された高品質なトラジェクトリ（リプレイバッファに格納）を用いて、未知の環境での探索を可能にし、エージェントが自らの過去の成功した意思決定を模倣できるようにする。
フレームワークは、自己生成されたロールアウトから得られるエキスパートに似たトラジェクトリのリプレイバッファを使用しており、外部の監督なしに模倣学習を可能にする。
この手法はモジュラでモデルに依存せず、ナビゲーターまたはクリティックなどのコンポonentを個別に改善可能である。

実験結果

リサーチクエスチョン

RQ1サイクル再構成内在報酬を用いることで、言語指示とエージェントのトラジェクトリを一致させることで、視覚言語ナビゲーションにおけるクロスモーダルマッチングが向上するか？
RQ2強化学習を用いて外在的報酬と内在的報酬を組み合わせることで、VLNにおけるポリシー性能と一般化性能にどのような影響を与えるか？
RQ3エージェント自身の過去の成功したトラジェクトリに基づく自己教師付き模倣学習は、未知の環境におけるナビゲーション性能を向上させるか？
RQ4提案手法は、VLNにおける見たことのある環境と見たことのない環境の間の性能差をどの程度縮小するか？

主な発見

RCMはR2Rベンチマークで新たな最先端性能を達成し、従来手法と比較してSPLを10%向上させた。
内在的サイクル再構成報酬の導入により、SILと組み合わせた場合、見たことのある環境と見たことのない環境の間の成功率差が30.7%から11.7%に縮小された。
アブレーションスタディの結果、内在的報酬を削除すると、見たことのない環境での成功率が1.9ポイント低下し、一般化におけるその役割が明確になった。
履歴に配慮したクロスモーダルアテンションを備えた推論ナビゲーターは、単なる隠れ状態アテンションを用いる標準的なシーケンス・ツー・シーケンスモデルを上回り、文脈モデリングの利点を示した。
SILは、エージェントが自らの高品質なロールアウトから学習できるようにすることで、見たことのある環境および見たことのない環境の両方で性能を著しく向上させ、グリーディビームサーチを上回った。
本手法は強力な一般化性能を示し、RCM + SILを用いることで、ベースラインモデルと比較して、見たことのない環境での成功率が7.1ポイント向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。