[論文レビュー] Passive learning of active causal strategies in agents and language models
本論文は、エージェントと言語モデルが、説明が提供される場合に特に、純粋に受動的なデータから一般化可能な因果実験と介入戦略を学習でき、これらの戦略を未知の構造や高次元環境へ拡張できることを示している。
What can be learned about causality and experimentation from passive data? This question is salient given recent successes of passively-trained language models in interactive domains such as tool use. Passive learning is inherently limited. However, we show that purely passive learning can in fact allow an agent to learn generalizable strategies for determining and using causal structures, as long as the agent can intervene at test time. We formally illustrate that learning a strategy of first experimenting, then seeking goals, can allow generalization from passive learning in principle. We then show empirically that agents trained via imitation on expert data can indeed generalize at test time to infer and use causal links which are never present in the training data; these agents can also generalize experimentation strategies to novel variable sets never observed in training. We then show that strategies for causal intervention and exploitation can be generalized from passive data even in a more complex environment with high-dimensional observations, with the support of natural language explanations. Explanations can even allow passive learners to generalize out-of-distribution from perfectly-confounded training data. Finally, we show that language models, trained only on passive next-word prediction, can generalize causal intervention strategies from a few-shot prompt containing examples of experimentation, together with explanations and reasoning. These results highlight the surprising power of passive learning of active causal strategies, and may help to understand the behaviors and capabilities of language models.
研究の動機と目的
- 受動的・オフラインデータが、一般化可能な能動的因果戦略の学習を支援できることを示す。
- 専門家データでの模倣が、未見の因果構造への外挿を可能にすることを示す。
- 説明が受動的学習者の学習と一般化をどのように支援するか、分布外ケースを含めて検討する。
- 言語モデルが、few-shotプロンプト付きの受動的次語予測から因果介入戦略を獲得できるか評価する。
提案手法
- 単純な因果DAGおよびodd-one-out環境で、 expert のデモを模倣するために記憶を持つ Transformer ベースのエージェントを使用する。
- 探索が因果構造を特定する専門家データに対して行動クローンで訓練し、次に学習した構造を用いた活用を行う。
- 見たことのない因果リンクを持つDAGへの一般化と、高次元でピクセルベースの観測への一般化を評価する。
- 学習と一般化を促進する補助損失として自然言語の説明を組み込む。
- 70B-parameter Chinchilla 言語モデルを、説明付きのfew-shotプロンプトでテストし、因果戦略の一般化を評価する。
実験結果
リサーチクエスチョン
- RQ1エージェントは、テスト時に介入できる場合、受動的データから因果構造を発見・活用する一般化可能な戦略を学習できるか。
- RQ2受動的模倣が、未見の因果リンクや変数セットへどの程度一般化できるか。
- RQ3自然言語による説明は、分布外ケースを含む一般化能力を受動的学習者に与えるのを高めるか。
- RQ4事前学習済み言語モデルは、説明付きのfew-shot promptsから因果介入戦略を一般化できるか。
主な発見
- 専門家データの模倣によって訓練されたエージェントは、訓練データに含まれない因果リンクを推論し、それを活用できる。
- エージェントは、未知の変数セットとテスト構造へ探索戦略を一般化する。
- 説明は、混同行列データから一般化する受動的学習者を支援し、高次元環境での学習を促進する。
- 説明と推論過程の痕跡を含む場合、言語モデルはfew-shot promptsから因果介入戦略を一般化できる。
- 受動的に訓練されたエージェントとLMは、説明から得られる利点により、純粋な観察学習を超えた一般化を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。