QUICK REVIEW

[论文解读] Temporal-Difference Networks

Richard S. Sutton, B. K. Tanner|arXiv (Cornell University)|Apr 21, 2015

Bayesian Modeling and Causal Inference参考文献 12被引用 56

一句话总结

本文提出了时序差分（TD）网络，作为TD学习的泛化形式，使不同类型未来事件之间的相关预测成为可能，而不仅限于价值函数。通过允许具有不同语义含义的预测通过TD更新相互关联，该方法能够实现基于固定时间间隔、条件于动作的预测，甚至利用预测状态表示解决非马尔可夫问题，展现出相较于蒙特卡洛方法更优的数据效率和收敛性。

ABSTRACT

We introduce a generalization of temporal-difference (TD) learning to networks of interrelated predictions. Rather than relating a single prediction to itself at a later time, as in conventional TD methods, a TD network relates each prediction in a set of predictions to other predictions in the set at a later time. TD networks can represent and apply TD learning to a much wider class of predictions than has previously been possible. Using a random-walk example, we show that these networks can be used to learn to predict by a fixed interval, which is not possible with conventional TD methods. Secondly, we show that if the inter-predictive relationships are made conditional on action, then the usual learning-efficiency advantage of TD methods over Monte Carlo (supervised learning) methods becomes particularly pronounced. Thirdly, we demonstrate that TD networks can learn predictive state representations that enable exact solution of a non-Markov problem. A very broad range of inter-predictive temporal relationships can be expressed in these networks. Overall we argue that TD networks represent a substantial extension of the abilities of TD methods and bring us closer to the goal of representing world knowledge in entirely predictive, grounded terms.

研究动机与目标

将时序差分学习从价值函数预测扩展至具有不同语义含义的更广泛类别相关预测。
探究TD网络是否能够学习在固定时间间隔后进行预测，而该任务在传统TD方法中不可行。
评估在马尔可夫环境中，与蒙特卡洛方法相比，动作条件化TD网络的学习效率。
评估TD网络学习预测状态表示以解决非马尔可夫决策问题的能力。
探索基于数据的TD定义预测在表达世界知识方面的潜力，特别是以预测性、可 grounded 的形式表示。

提出的方法

TD网络由问题网络（定义目标关系，即语义含义）和答案网络（定义计算更新过程）构成。
网络中的每个节点代表对特定未来事件的标量预测，节点间的连接编码了与其他预测或观测之间期望的时间关系。
答案网络使用时序差分学习规则更新预测，其中每个预测基于更晚时间点的其他预测所生成的目标进行更新。
对于动作条件化预测，问题网络基于动作序列进行条件化，从而更高效地学习未来事件的预测。
在非马尔可夫设置中，该方法使用基于历史的特征（包括先前预测）来重建状态信息。
学习算法使用随机梯度下降，配合逻辑激活函数和可调学习率参数，以最小化预测误差。

实验结果

研究问题

RQ1当传统TD方法无法实现时，TD网络是否能够学习在固定步数后进行预测（例如，在特定延迟后预测未来观测位）？
RQ2与蒙特卡洛方法相比，将预测间关系条件化于动作是否能显著提升学习效率？
RQ3TD网络是否能够学习一种预测状态表示，使得在仅部分可观察的情况下，也能精确解决非马尔可夫问题？
RQ4问题网络在定义预测语义方面起什么作用，它如何影响学习过程？
RQ5TD定义的预测（具有不同语义含义）在多大程度上可用于以基于数据的、预测性的方式表示世界知识？

主要发现

TD网络成功学习了在固定时间间隔（例如，2、3或4步后）预测未来观测位，而这是标准TD学习无法实现的任务。
动作条件化TD网络的学习速度显著快于蒙特卡洛方法，批量更新版本在所有数据规模下均显示出预测误差的统计显著降低。
在仅可观测终点状态位的非马尔可夫随机游走任务中，TD网络学习到了一种预测状态表示，使任务得以精确求解，预测误差随时间趋近于零。
深度为4的TD网络的学习曲线显示，RMSE收敛至接近零，且在小学习率下出现误差的特征性‘凸起’，可能源于不同长度预测的学习速率不一致。
该方法在不同网络深度和学习率参数下表现出鲁棒性，在重复运行中50,000个时间步内均保持误差持续降低。
在非马尔可夫设置中，TD网络优于传统方法，表明其在预测状态表示学习方面具有强大潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。