[論文レビュー] Thought Cloning: Learning to Think while Acting by Imitating Human Thinking
Thought Cloningは、行動中に人間の思考を模倣することで言語で考えるようにエージェントを訓練し、Behavioral Cloningと比較して学習をより速くし、より良い一般化、より安全性と解釈可能性を改善します。
Language is often considered a key aspect of human thinking, providing us with exceptional abilities to generalize, explore, plan, replan, and adapt to new situations. However, Reinforcement Learning (RL) agents are far from human-level performance in any of these abilities. We hypothesize one reason for such cognitive deficiencies is that they lack the benefits of thinking in language and that we can improve AI agents by training them to think like humans do. We introduce a novel Imitation Learning framework, Thought Cloning, where the idea is to not just clone the behaviors of human demonstrators, but also the thoughts humans have as they perform these behaviors. While we expect Thought Cloning to truly shine at scale on internet-sized datasets of humans thinking out loud while acting (e.g. online videos with transcripts), here we conduct experiments in a domain where the thinking and action data are synthetically generated. Results reveal that Thought Cloning learns much faster than Behavioral Cloning and its performance advantage grows the further out of distribution test tasks are, highlighting its ability to better handle novel situations. Thought Cloning also provides important benefits for AI Safety and Interpretability, and makes it easier to debug and improve AI. Because we can observe the agent's thoughts, we can (1) more easily diagnose why things are going wrong, making it easier to fix the problem, (2) steer the agent by correcting its thinking, or (3) prevent it from doing unsafe things it plans to do. Overall, by training agents how to think as well as behave, Thought Cloning creates safer, more powerful agents.
研究の動機と目的
- RLエージェントのサンプル効率、一般化、計画および再計画を改善するための言語のような思考の利用を動機付ける。
- 思考を自然言語で考えることと行動を同時に学習する模倣学習枠組みThought Cloningを提案し、同期した思考-行動デモンストレーションから学習する。
- Thought CloningがBabyAIの合成思考データセットでBehavioral Cloningを上回り、分布外一般化と安全性の利点を強化することを実証する。
提案手法
- ビリーフレベルのThought GeneratorとAction Generatorアーキテクチャを導入する。
- 任務、観察、思考履歴を条件とした思考予測のThought Cloningロスと行動予測のActionロスを結合したロスで訓練する。
- 思考の転写付きの行動データとノイズを加えた現実に近いデータを持つBabyAI由来の合成思考データセットを使用する。
- 記憶拡張LSTMとFiLM融合を用いたThought Generatorを実装;スケーリングのために事前学習済みのVision-Language Modelsをオプションで活用。
- Thought CloningをBehavioral Cloningと、思考模倣ロスを用いないTC変種と比較して、思考指導の恩恵を分離して検証する。
- 1MトラジェクトリのBabyAIデータで評価し、8エポックの訓練と teacher-forcingスケジュールを用いて段階的に自己回帰的思考生成へ移行する。

実験結果
リサーチクエスチョン
- RQ1人間の思考デモンストレーションから学習する思考と行動を両立させるデュアルモデル模倣フレームワークは、従来のBehavioral Cloningを凌ぐことができるか。
- RQ2Thought Cloningで訓練されたエージェントは分布外環境への一般化が向上し、ファインチューニングで適応できるか。
- RQ3解釈可能性と安全性の利点(例:思考への介入可能性)は実際に有効か。
- RQ4人間のような思考を取り入れることで、難易度が高く部分観測的な領域での学習と計画/再計画がより速く進むか。
主な発見
- Thought CloningはBehavioral Cloningよりも学習が速く、訓練を通じて優れた性能を維持する。
- Thought Cloningは思考模倣ロスを欠くTC変種よりも上回り、利点は単にパラメータ数が多いからだけではないことを示す。
- Thought Cloningはゼロショットおよびファインチューニングのシナリオで分布外環境への一般化がより良い。
- このアプローチは未来の行動宣言スコアなどの解釈性指標を提供し、安全でない計画を未然に防ぐPrecrime介入を可能にする。
- オラクルの高レベル思考を用いると、Thought Cloningはほとんどの環境でほぼ最適な性能を達成する。
- 結果は大規模な人間の思考データを用いたThought Cloningのスケーリングが能力と安全性を大幅に向上させる可能性を示唆する。
![Figure 2 : Left : A BabyAI [ 26 ] environment example. The environment contains various colored items ( ball, key, box, door ). The agent can pick up, drop, and move objects or open and close doors, while locked doors can only be unlocked with color-matched keys. The agent can observe the $7\times 7](https://ar5iv.labs.arxiv.org/html/2306.00323/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。