QUICK REVIEW

[論文レビュー] On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models

Juergen Schmidhuber|arXiv (Cornell University)|Nov 30, 2015

Reinforcement Learning in Robotics参考文献 243被引用数 40

ひとこと要約

本論文は、予測的世界モデルを能動的に照会し、活用することで考える能力を学ぶ再帰的ニューラルネットワーク（RNN）コントローラーを備えた、革新的な強化学習アーキテクチャを提案する。アルゴリズム的情報理論を用いて内発的興味と圧縮駆動型探索を誘導することで、システムは自律的かつ自発的に新規タスクを生成・検証し、部分的に観察可能な環境において階層的で段階的な学習と自己向上を実現する。

ABSTRACT

This paper addresses the general problem of reinforcement learning (RL) in partially observable environments. In 2013, our large RL recurrent neural networks (RNNs) learned from scratch to drive simulated cars from high-dimensional video input. However, real brains are more powerful in many ways. In particular, they learn a predictive model of their initially unknown environment, and somehow use it for abstract (e.g., hierarchical) planning and reasoning. Guided by algorithmic information theory, we describe RNN-based AIs (RNNAIs) designed to do the same. Such an RNNAI can be trained on never-ending sequences of tasks, some of them provided by the user, others invented by the RNNAI itself in a curious, playful fashion, to improve its RNN-based world model. Unlike our previous model-building RNN-based RL machines dating back to 1990, the RNNAI learns to actively query its model for abstract reasoning and planning and decision making, essentially "learning to think." The basic ideas of this report can be applied to many other cases where one RNN-like system exploits the algorithmic information content of another. They are taken from a grant proposal submitted in Fall 2014, and also explain concepts such as "mirror neurons." Experimental results will be described in separate papers.

研究の動機と目的

強化学習と予測的世界モデリングを統合した汎用的で自己向上可能なAIアーキテクチャの開発を目的とする。
コントローラーが世界モデルを能動的に照会し、推論することで、人間のような抽象的計画と推論を模倣することを目的とする。
内発的興味と圧縮ベースの報酬を統合することで、部分的に観察可能な環境における生涯にわたる段階的学習の課題に取り組むことを目的とする。
アルゴリズム的情報理論を通じて「考える学習」のプロセスを形式化し、モデルの改善が探索と報酬割り当てを駆動することを目的とする。
自律的かつ自発的に新規タスクを考案・解決できるシステムの構築を目的とし、科学的発見や遊び心のある学習を模倣する。

提案手法

本システムは二重RNNアーキテクチャを採用：コントローラー（C）と予測的世界モデル（M）で構成され、両者とも勾配降下法と強化学習によって訓練される。
世界モデルMは、エージェントの観測履歴を圧縮することを目的とし、圧縮性能がモデル品質および新奇性検出の代理指標として機能する。
コントローラーCはハイブリッド報酬で訓練される：タスクの遂行に対する外部報酬に加え、Mの新しいデータの圧縮性能を向上させる行動に対する内発的報酬が加算される。
全履歴の再評価が高コストであるのを避けるために、最近の圧縮性能の向上に注目するヒューリスティックを導入し、計算負荷を低減する。
世界モデルMは自己モジュラー化するウィンナー・トーキル・RNNとして実装され、特定のデータセグメントをエンコードするモデルのどの部分が関与しているかを追跡可能にする。
Cの行動に対する報酬割り当ては、Cのどの部分がMのどの部分に影響を与えるかを追跡することで実現され、効率的で的を射たプログラム探索と進化を可能にする。

実験結果

リサーチクエスチョン

RQ1強化学習エージェントは、予測的世界モデルを能動的に照会し再利用することで、どのように「考える」学習を可能にするか？
RQ2アルゴリズム的情報理論は、内発的興味と自発的タスク生成を可能にする上で果たす役割は何か？
RQ3世界モデルの圧縮性能を、探索のための信頼性のある内発的報酬信号としてどのように利用できるか？
RQ4コントローラーは、予測RNN世界モデルの内部構造を活用することで、抽象的計画と推論を学習できるか？
RQ5モジュラーかつ検証可能なモデル更新を用いて、消去的忘却を回避する生涯にわたる段階的学習はどのように達成できるか？

主な発見

RNNAIアーキテクチャにより、コントローラーがRNNベースの世界モデルを能動的にプローブし、計画と推論に再利用することで「考える」学習を実現できる。
世界モデルの圧縮性能の向上に基づく内発的報酬が、探索とタスク発見を効果的に誘導する。
最近の圧縮性能の向上に注目する戦略は、全履歴の再評価なしにモデル改善を評価する計算的に実行可能なヒューリスティックを提供する。
自己モジュラー化するウィンナー・トーキルRNNは、特定のデータセグメントをエンコードするモデル部品を効率的に追跡可能にし、正確な報酬割り当てを可能にする。
システムは複雑な行動を段階的に学習でき、モデル圧縮の向上につながる新規タスクを自発的に考案することができ、科学的興味を模倣する。
このフレームワークは階層的でマルチタスクかつ段階的学習をサポートし、内部モデルの改善を通じて外部報酬の獲得を加速する可能性を有する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。