[論文レビュー] Human Instruction-Following with Deep Reinforcement Learning via Transfer-Learning from Text
本論文は SHIFTT を提案し、事前学習済みのテキストエンコーダ(例: BERT)を用いて深層RLエージェントをブートストラップする方法で、テンプレートベースの指示から自然な人間の指示へのゼロショット転送を、3Dオブジェクト操作タスクで実現します。
Recent work has described neural-network-based agents that are trained with reinforcement learning (RL) to execute language-like commands in simulated worlds, as a step towards an intelligent agent or robot that can be instructed by human users. However, the optimisation of multi-goal motor policies via deep RL from scratch requires many episodes of experience. Consequently, instruction-following with deep RL typically involves language generated from templates (by an environment simulator), which does not reflect the varied or ambiguous expressions of real users. Here, we propose a conceptually simple method for training instruction-following agents with deep RL that are robust to natural human instructions. By applying our method with a state-of-the-art pre-trained text-based language model (BERT), on tasks requiring agents to identify and position everyday objects relative to other objects in a naturalistic 3D simulated room, we demonstrate substantially-above-chance zero-shot transfer from synthetic template commands to natural instructions given by humans. Our approach is a general recipe for training any deep RL-based system to interface with human users, and bridges the gap between two research directions of notable recent success: agent-centric motor behavior and text-based representation learning.
研究の動機と目的
- テンプレート生成言語への依存を減らして、指示遵守の頑健性を動機づける。
- テキストエンコーダからRLポリシーへの転移学習レシピを提案する。
- ShapeNetオブジェクトを含む3D部屋で自然な人間の指示へのゼロショーット一般化を実証する。
- 異なる言語エンコーダと訓練の拡張が一般化と頑健性に与える影響を分析する。
提案手法
- 視覚処理、言語埋め込み、メモリ、行動/価値ヘッドを用いた標準的なRLアーキテクチャを使用する。
- 複数のエンコーディング方式(mean-pooled、self-attention、cross-modal attention)で事前学習済み言語エンコーダ(BERT)を組み込む。
- 過学習を避けるためにBERTの重みを凍結し、任意で学習済みの自己注意層または視覚と言語を融合するクロスモーダル自己注意を追加する。
- SHIFTTステップを用いて合成テンプレート指示でポリシーパラメータへ意味知識を分配することで、シミュレーション内でエージェントを訓練する。
- 自然な人間の指示とクラウドソーシングで収集した同義語でゼロショット性能を評価し、人間データでの再訓練は行わない。
- typoノイズと tokenization(WordPiece)が人間の指示に対する頑健性に与える影響を調べる。
実験結果
リサーチクエスチョン
- RQ1プリ訓練済み言語エンコーダは、RLエージェントのテンプレート指示から自然な人間の指示へのゼロショット転送を実現できるか?
- RQ2どの言語エンコーダアーキテクチャ(mean-pooled BERT、self-attention、cross-modal attention)が視覚と行動の基盤を最も強固に支えるか?
- RQ3誤字ノイズとWordPieceトークン化は人間の指示への頑健性にどのように影響するか?
- RQ4合成言語で訓練されたシミュレーションエージェントは、自然で多様な人間の指示にどの程度適用できるか?
- RQ5SHIFTTアプローチは現実的な環境での物体識別と物体配置関係を必要とするタスクへスケールするか?
主な発見
- 事前学習済みテキストエンコーダは、参照タスクと配置タスクの両方で、非事前学習ベースラインと比較して精度を大幅に向上させる。
- mean poolingを用いたBERTベースのエンコーダは、同義語評価で最大77%、参照様評価で最大94%の精度を達成した。
- 文脈依存表現(BERT)は、文脈に依存しない埋め込みとWordPieceだけを用いた場合よりも、自然な指示への一般化で優れている。
- クロスモーダル自己注意とタイポノイズの組み合わせは、自然な配置指示など人間の指示に対する頑健性を高め、特に自然な指示テストで70%の精度を示す。
- WordPieceトークン化と調整された自己注意層は、タイポノイズと組み合わせると頑健性を提供するが、BERTの重みを凍結することで過学習リスクは抑制される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。