[论文解读] Deep Sequential Neural Network
本文提出深度顺序神经网络(DSNNs),一种新型深度学习架构,通过在每一层利用顺序决策过程动态选择多个候选映射中的一个,实现自适应、输入相关的变换路径。与标准深度网络中应用固定全局变换不同,DSNNs 使用策略梯度学习联合优化选择策略与网络权重,在复杂、多分布数据(如反向MNIST和棋盘数据集)上表现出更优性能。
Neural Networks sequentially build high-level features through their successive layers. We propose here a new neural network model where each layer is associated with a set of candidate mappings. When an input is processed, at each layer, one mapping among these candidates is selected according to a sequential decision process. The resulting model is structured according to a DAG like architecture, so that a path from the root to a leaf node defines a sequence of transformations. Instead of considering global transformations, like in classical multilayer networks, this model allows us for learning a set of local transformations. It is thus able to process data with different characteristics through specific sequences of such local transformations, increasing the expression power of this model w.r.t a classical multilayered network. The learning algorithm is inspired from policy gradient techniques coming from the reinforcement learning domain and is used here instead of the classical back-propagation based gradient descent techniques. Experiments on different datasets show the relevance of this approach.
研究动机与目标
- 通过实现输入相关的动态特征学习,解决标准深度神经网络中固定、全局变换的局限性。
- 通过为不同输入分布学习不同的变换序列,使神经网络能够处理具有多样化特征的数据。
- 提出一种结合策略梯度方法与反向传播的学习框架,以联合优化选择策略与网络权重。
- 证明所提出的模型能够捕捉标准DNN无法学习的复杂非线性决策边界。
- 探讨当每层候选映射数量减少为一个时,DSNNs与标准DNN在理论和实证上的等价性。
提出的方法
- 将网络结构化为有向无环图(DAG),其中每一层包含多个从一个表示空间到另一个表示空间的候选映射(变换)。
- 在推理阶段,通过顺序决策过程根据当前输入表示选择每层的一个映射,形成从根到叶的路径。
- 使用策略梯度技术(特别是强化学习策略梯度的扩展)训练选择策略,同时通过标准反向传播更新网络权重。
- 在每一层将选择函数定义为可微策略,输出候选映射上的概率分布。
- 优化联合目标:在学习最有效变换序列的同时最小化预测损失。
- 在隐藏层使用修正线性单元(ReLUs),并通过随机梯度下降端到端训练,其中选择头采用策略梯度更新。
实验结果
研究问题
- RQ1深度神经网络能否根据输入特征动态选择多个变换路径,以提升在复杂数据上的泛化能力?
- RQ2当输入数据遵循多个潜在分布时,DSNN的性能与标准DNN相比如何?
- RQ3基于策略梯度的学习变换序列在捕捉非线性决策边界方面,与仅使用反向传播训练相比,能多大程度上表现更优?
- RQ4架构选择(如候选映射数量和隐藏层大小)对模型泛化能力有何影响?
- RQ5当每层候选映射数量减少为一个时,所提出的DSNN框架是否与标准DNN在极限情况下等价?
主要发现
- 在MNIST-Negative数据集上,其中数字从两个不同分布(原始和反向)采样,无隐藏层的标准DNN仅达到37.4%准确率,而DSNNs在使用2个候选映射时准确率最高达88.3%。
- 在11×11图案的棋盘数据集上,DSNN-3使用10维隐藏层达到69.7%准确率,显著优于标准DNN的50%基线。
- 在标准MNIST数据集上,DSNNs与标准DNN性能相当(例如,DSNN-5为95.4%准确率,NN为95.3%),证实了在简单情况下的等价性。
- 当候选映射数量增加(如10个动作)时,具有更大架构的DSNNs出现过拟合且性能下降,表明表达能力与泛化能力之间存在权衡。
- 在MNIST-Negative上,使用25-25隐藏层的DSNN达到90.4%准确率,表明更深的DSNN能够有效建模复杂数据分布。
- 该模型能够根据输入学习不同的变换路径,从而捕捉标准DNN无法建模的复杂非线性决策边界,这在棋盘任务中已得到验证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。