QUICK REVIEW

[论文解读] Deep Sequential Neural Network

Ludovic Denoyer, Patrick Gallinari|arXiv (Cornell University)|Oct 2, 2014

Domain Adaptation and Few-Shot Learning参考文献 13被引用 34

一句话总结

本文提出深度顺序神经网络（DSNNs），一种新型深度学习架构，通过在每一层利用顺序决策过程动态选择多个候选映射中的一个，实现自适应、输入相关的变换路径。与标准深度网络中应用固定全局变换不同，DSNNs 使用策略梯度学习联合优化选择策略与网络权重，在复杂、多分布数据（如反向MNIST和棋盘数据集）上表现出更优性能。

ABSTRACT

Neural Networks sequentially build high-level features through their successive layers. We propose here a new neural network model where each layer is associated with a set of candidate mappings. When an input is processed, at each layer, one mapping among these candidates is selected according to a sequential decision process. The resulting model is structured according to a DAG like architecture, so that a path from the root to a leaf node defines a sequence of transformations. Instead of considering global transformations, like in classical multilayer networks, this model allows us for learning a set of local transformations. It is thus able to process data with different characteristics through specific sequences of such local transformations, increasing the expression power of this model w.r.t a classical multilayered network. The learning algorithm is inspired from policy gradient techniques coming from the reinforcement learning domain and is used here instead of the classical back-propagation based gradient descent techniques. Experiments on different datasets show the relevance of this approach.

研究动机与目标

通过实现输入相关的动态特征学习，解决标准深度神经网络中固定、全局变换的局限性。
通过为不同输入分布学习不同的变换序列，使神经网络能够处理具有多样化特征的数据。
提出一种结合策略梯度方法与反向传播的学习框架，以联合优化选择策略与网络权重。
证明所提出的模型能够捕捉标准DNN无法学习的复杂非线性决策边界。
探讨当每层候选映射数量减少为一个时，DSNNs与标准DNN在理论和实证上的等价性。

提出的方法

将网络结构化为有向无环图（DAG），其中每一层包含多个从一个表示空间到另一个表示空间的候选映射（变换）。
在推理阶段，通过顺序决策过程根据当前输入表示选择每层的一个映射，形成从根到叶的路径。
使用策略梯度技术（特别是强化学习策略梯度的扩展）训练选择策略，同时通过标准反向传播更新网络权重。
在每一层将选择函数定义为可微策略，输出候选映射上的概率分布。
优化联合目标：在学习最有效变换序列的同时最小化预测损失。
在隐藏层使用修正线性单元（ReLUs），并通过随机梯度下降端到端训练，其中选择头采用策略梯度更新。

实验结果

研究问题

RQ1深度神经网络能否根据输入特征动态选择多个变换路径，以提升在复杂数据上的泛化能力？
RQ2当输入数据遵循多个潜在分布时，DSNN的性能与标准DNN相比如何？
RQ3基于策略梯度的学习变换序列在捕捉非线性决策边界方面，与仅使用反向传播训练相比，能多大程度上表现更优？
RQ4架构选择（如候选映射数量和隐藏层大小）对模型泛化能力有何影响？
RQ5当每层候选映射数量减少为一个时，所提出的DSNN框架是否与标准DNN在极限情况下等价？

主要发现

在MNIST-Negative数据集上，其中数字从两个不同分布（原始和反向）采样，无隐藏层的标准DNN仅达到37.4%准确率，而DSNNs在使用2个候选映射时准确率最高达88.3%。
在11×11图案的棋盘数据集上，DSNN-3使用10维隐藏层达到69.7%准确率，显著优于标准DNN的50%基线。
在标准MNIST数据集上，DSNNs与标准DNN性能相当（例如，DSNN-5为95.4%准确率，NN为95.3%），证实了在简单情况下的等价性。
当候选映射数量增加（如10个动作）时，具有更大架构的DSNNs出现过拟合且性能下降，表明表达能力与泛化能力之间存在权衡。
在MNIST-Negative上，使用25-25隐藏层的DSNN达到90.4%准确率，表明更深的DSNN能够有效建模复杂数据分布。
该模型能够根据输入学习不同的变换路径，从而捕捉标准DNN无法建模的复杂非线性决策边界，这在棋盘任务中已得到验证。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。