QUICK REVIEW

[论文解读] On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models

Juergen Schmidhuber|arXiv (Cornell University)|Nov 30, 2015

Reinforcement Learning in Robotics参考文献 243被引用 40

一句话总结

该论文提出了一种新颖的强化学习架构，其中循环神经网络（RNN）控制器通过主动查询并利用独立的基于RNN的预测世界模型来实现思考。通过使用算法信息论来引导内在好奇心和压缩驱动的探索，该系统能够自主生成并测试新颖任务，从而在部分可观察环境中实现分层的、渐进式学习与自我改进。

ABSTRACT

This paper addresses the general problem of reinforcement learning (RL) in partially observable environments. In 2013, our large RL recurrent neural networks (RNNs) learned from scratch to drive simulated cars from high-dimensional video input. However, real brains are more powerful in many ways. In particular, they learn a predictive model of their initially unknown environment, and somehow use it for abstract (e.g., hierarchical) planning and reasoning. Guided by algorithmic information theory, we describe RNN-based AIs (RNNAIs) designed to do the same. Such an RNNAI can be trained on never-ending sequences of tasks, some of them provided by the user, others invented by the RNNAI itself in a curious, playful fashion, to improve its RNN-based world model. Unlike our previous model-building RNN-based RL machines dating back to 1990, the RNNAI learns to actively query its model for abstract reasoning and planning and decision making, essentially "learning to think." The basic ideas of this report can be applied to many other cases where one RNN-like system exploits the algorithmic information content of another. They are taken from a grant proposal submitted in Fall 2014, and also explain concepts such as "mirror neurons." Experimental results will be described in separate papers.

研究动机与目标

开发一种通用的、可自我改进的强化学习架构，结合强化学习与预测世界建模。
使控制器能够主动查询并利用世界模型，模拟类人抽象规划与推理。
通过整合内在好奇心与基于压缩的奖励，解决在部分可观察环境中实现终身渐进式学习的挑战。
通过算法信息论形式化‘学会思考’的过程，其中模型改进驱动探索与信用分配。
构建一个能够自主发明并解决新颖任务的系统，模拟科学发现与游戏化学习。

提出的方法

系统采用双RNN架构：控制器（C）与预测世界模型（M），两者均通过梯度下降与强化学习进行训练。
世界模型M被训练以压缩智能体的观测历史，压缩性能作为模型质量与新颖性检测的代理指标。
控制器C通过混合奖励进行训练：外部奖励用于任务表现，内在奖励用于提升M对新数据压缩性能的动作。
采用启发式方法聚焦于近期的压缩性能改进，避免对完整历史数据的重新评估，从而降低计算开销。
世界模型M实现为自模块化、赢家通吃RNN，以实现对模型各部分负责编码特定数据段的追踪。
通过追踪控制器C的哪些部分影响世界模型M的哪些部分，实现C动作的信用分配，从而支持高效、有针对性的程序搜索与演化。

实验结果

研究问题

RQ1强化学习智能体如何通过主动查询并重用预测世界模型来实现‘学会思考’？
RQ2算法信息论在实现内在好奇心与自主发明任务生成中起到何种作用？
RQ3如何将世界模型的压缩性能可靠地用作探索的内在奖励信号？
RQ4控制器能否通过利用预测RNN世界模型的内部结构，实现抽象规划与推理？
RQ5如何通过模块化与可验证的模型更新，实现无灾难性遗忘的终身渐进式学习？

主要发现

RNNAI架构使控制器能够通过主动探测并重用其基于RNN的世界模型，实现规划与推理。
基于世界模型压缩性能改进的内在奖励能有效引导探索与任务发现。
聚焦于近期压缩性能改进提供了一种计算上可行的启发式方法，可在无需完整历史重评估的情况下评估模型改进。
自模块化、赢家通吃RNN能够高效追踪模型各组件用于编码哪些数据，从而实现精确的信用分配。
该系统能够渐进式学习复杂行为，并自主发明导致模型压缩性能提升的新任务，模拟科学好奇心。
该框架支持分层、多任务与渐进式学习，且可通过内部模型改进加速外部奖励的获取。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。