[論文レビュー] Pre-Trained Language Models for Interactive Decision-Making
本論文は、事前学習済み言語モデルを用いてインタラクティブな意思決定のポリシーを初期化・微調整する枠組みであるLIDを提案し、模倣学習や能動的データ収集によるデータ効率的な学習と強力な組合せ一般化を実現する。in-distributionおよびout-of-distributionタスクのVirtualHomeとBabyAIで顕著な改善を示し、自己教師付きのADGループも効果的である。
Language model (LM) pre-training is useful in many language processing tasks. But can pre-trained LMs be further leveraged for more general machine learning problems? We propose an approach for using LMs to scaffold learning and generalization in general sequential decision-making problems. In this approach, goals and observations are represented as a sequence of embeddings, and a policy network initialized with a pre-trained LM predicts the next action. We demonstrate that this framework enables effective combinatorial generalization across different environments and supervisory modalities. We begin by assuming access to a set of expert demonstrations, and show that initializing policies with LMs and fine-tuning them via behavior cloning improves task completion rates by 43.6% in the VirtualHome environment. Next, we integrate an active data gathering procedure in which agents iteratively interact with the environment, relabel past "failed" experiences with new goals, and update their policies in a self-supervised loop. Active data gathering further improves combinatorial generalization, outperforming the best baseline by 25.1%. Finally, we explain these results by investigating three possible factors underlying the effectiveness of the LM-based policy. We find that sequential input representations (vs. fixed-dimensional feature vectors) and LM-based weight initialization are both important for generalization. Surprisingly, however, the format of the policy inputs encoding (e.g. as a natural language string vs. an arbitrary sequential encoding) has little influence. Together, these results suggest that language modeling induces representations that are useful for modeling not just language, but also goals and plans; these representations can aid learning and generalization even outside of language processing.
研究の動機と目的
- diverse 環境全体でインタラクティブな意思決定の一般的な足場として事前学習済み言語モデルの利点を動機づける。
- ポリシー入力をトランスフォーマーLMで処理される逐次データとしてエンコードすることにより組合せ一般化を実現する。
- LM初期化されたポリシーが模倣学習の性能を改善し、新規ゴールや状態へ一般化することを示す。
- エキスパートデータなしで学習し、経験を再ラベル付けしてポリシー学習を改善するActive Data Gathering (ADG)を導入する。
- 入力エンコード、逐次処理、LMウェイト初期化を含む一般化に寄与する要因を分析する。
提案手法
- ゴール、観測、履歴を逐次入力として表現し、事前学習済みLM(GPT-2)で初期化されたトランスフォーマーエンコーダに入力する。
- 模倣学習による専門家軌道またはADGによるヒindsight再ラベル付けを用いて次のアクションを予測するようにLMウェイトを微調整する。
- ポリシー入力には言語ベースまたは逐次エンコーディングを用い、LMからのコンテキスト表現を用いてアクションを予測する。
- ADGでは探索、失敗した軌道から新しいゴールを作るためのヒindsight再ラベル付け、ポリシー更新を専門家データなしでループさせる。
- LID(LM初期化)をベースライン(LSTM、MLP)およびRL/HER手法とVirtualHomeとBabyAIタスクで比較する。
実験結果
リサーチクエスチョン
- RQ1事前学習済み言語モデルは言語タスクを超えた逐次意思決定のポリシー初期化の一般的な枠組みとして機能し得るか。
- RQ2LMベースのポリシー初期化は現実世界の環境で新規ゴール・状態・オブジェクトへの組合せ一般化を改善するか。
- RQ3ヒindsight再ラベル付けを伴うアクティブデータ収集は専門家データなしで学習を実現し、従来のRL手法を上回るか。
- RQ4入力エンコード、逐次構造、LMウェイト初期化のうち、観察される一般化の恩恵に最も寄与する要因はどれか。
主な発見
- LM初期化ポリシーは組合せ一般化を大幅に改善し、例として新規VirtualHomeタスクでベースラインと比較してタスク完了率が43.6%高い。
- LM初期化子を用いた模倣学習は、in-distribution VirtualHomeタスクでベースラインより約20%高い成功ポリシーを得る。
- 再ラベル付けを伴うActive Data Gathering (ADG) は一般化をさらに改善し、新規タスクでベースラインを25.1%上回る。
- 逐次入力表現とLM風のウェイト初期化は一般化にとって重要であり、自然言語入力自体は必須ではなく、逐次エンコードの方が一般化に影響する。
- LMウェイトの微調整(凍結ではなく)は組合せ一般化に不可欠であり、逐次処理は性能に寄与する一方、非逐次入力は一般化を低下させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。