[論文レビュー] Language Models Meet World Models: Embodied Experiences Enhance Language Models
世界モデル(VirtualHome)からの embodiment 経験を用いた言語モデルのファインチューニングにより、EWC-LoRA フレームワークを用いて embodied reasoning タスクの性能を向上させ、言語能力を維持する。
While large language models (LMs) have shown remarkable capabilities across numerous tasks, they often struggle with simple reasoning and planning in physical environments, such as understanding object permanence or planning household activities. The limitation arises from the fact that LMs are trained only on written text and miss essential embodied knowledge and skills. In this paper, we propose a new paradigm of enhancing LMs by finetuning them with world models, to gain diverse embodied knowledge while retaining their general language capabilities. Our approach deploys an embodied agent in a world model, particularly a simulator of the physical world (VirtualHome), and acquires a diverse set of embodied experiences through both goal-oriented planning and random exploration. These experiences are then used to finetune LMs to teach diverse abilities of reasoning and acting in the physical world, e.g., planning and completing goals, object permanence and tracking, etc. Moreover, it is desirable to preserve the generality of LMs during finetuning, which facilitates generalizing the embodied knowledge across tasks rather than being tied to specific simulations. We thus further introduce the classical (EWC) for selective weight updates, combined with low-rank adapters (LoRA) for training efficiency. Extensive experiments show our approach substantially improves base LMs on 18 downstream tasks by 64.28% on average. In particular, the small LMs (1.3B, 6B, and 13B) enhanced by our approach match or even outperform much larger LMs (e.g., ChatGPT).
研究の動機と目的
- プリトレーニング済み言語モデルに多様な embodied knowledge を埋め込み、物理環境での推論と計画を改善する。
- 目標志向の計画とランダム探索を通じて世界モデルからembodied experiencesを収集するトレーニングパラダイム(E2WM)を提案する。
- Elastic Weight Consolidation(EWC)と低秩近似(LoRA)を組み合わせ、ファインチューニング中のLMの汎用性を維持する効率的な更新を実現する。
提案手法
- Monte Carlo Tree Search を用いた目標志向の計画と物体追跡を伴うランダム探索の二つの経路を通じて、家庭用世界モデル(VirtualHome)から embodiment experiences を収集する。
- 経験を、計画生成、活動認識、カウント、物体経路追跡などのファインチューニングタスクへ形式化する。
- これらのタスクで教師あり目的でLMをファインチューニングし、事前学習知識を保持するためのEWC正則化と、パラメータ更新を効率化するLoRAを用いる(EWC-LoRA)。
- 重要パラメータを保護するフィッシャー情報による正則化を基底に、LoRAパラメータで動作するよう再設計してメモリ使用量を削減する。
- Seen達成と unseen embodied tasks 及び言語モデリングベンチマーク(Pile)で一般化が維持されることを評価する。
実験結果
リサーチクエスチョン
- RQ1embodied experiences from a world model でファインチューニングした pretrained LMs は embodiment reasoning および planning 能力を改善できるか?
- RQ2EWC と LoRA を組み合わせた EWC-LoRA は、embodied tasks からの知識移転を効果的に行いながら言語モデリング能力を維持できるか?
- RQ3embodied experiences で訓練されたモデルは unseen tasks に generalize し、baselines や ChatGPT よりも embodied ベンチマークで改善を示すか?
- RQ4EWC-LoRA を適用した場合、pretrainingデータでの性能低下を最小化できるか?
主な発見
| モデル | ベースの困惑度 | 我々の困惑度 |
|---|---|---|
| GPT-Neo | 4.120 | 4.193 |
| GPT-J | 3.443 | 3.537 |
| OPT-13B | 4.077 | 4.358 |
| LLaMA-13B | 3.036 | 3.069 |
- embodied experiences でファインチューニングした小型LM(1.3B、6B、13B)は、11件の下流タスクでベースラインを上回り、いくつかのタスクでChatGPTを上回る。
- モデル間(GPT-Neo、GPT-J、OPT-13B、LLaMA-13B)で、計画、認識、カウント、追跡タスクで有意な改善を得られ、Rouge-Lおよび精度スコアが向上。
- Pileテストサブセットの困惑度はほとんど影響を受けず、一般的な言語モデリング能力の保持を示す(例:GPT-Neo: 4.120 base vs 4.193 ours; GPT-J: 3.443 base vs 3.537 ours; OPT-13B: 4.077 base vs 4.358 ours; LLaMA-13B: 3.036 base vs 3.069 ours)。
- EWC-LoRA は純粋な EWC や LoRA よりも良いトレードオフを提供し、下流性能を維持しつつ困惑度を低く抑える。
- アブレーション研究は、訓練タスクを除去すると下流性能が悪化することを示し、各 embodiment タスクの価値を裏付ける。
- bAbI タスクで、ファインチューニングされたモデルは base LM を上回り、難易度の高い項目で ChatGPT を上回る場合もある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。