[论文解读] Transport Analysis of Infinitely Deep Neural Network
本文通过将深度神经网络(DNNs)建模为常微分方程(ODEs)定义的连续动力系统,提出了一种无限深神经网络的流表示与传输分析方法,利用Wasserstein几何实现无坐标系处理。核心贡献在于表明,更深的去噪自编码器(DAEs)收敛更快并降低数据分布的熵,揭示了深层网络作为最优传输映射,可提升特征学习效果。
We investigated the feature map inside deep neural networks (DNNs) by tracking the transport map. We are interested in the role of depth (why do DNNs perform better than shallow models?) and the interpretation of DNNs (what do intermediate layers do?) Despite the rapid development in their application, DNNs remain analytically unexplained because the hidden layers are nested and the parameters are not faithful. Inspired by the integral representation of shallow NNs, which is the continuum limit of the width, or the hidden unit number, we developed the flow representation and transport analysis of DNNs. The flow representation is the continuum limit of the depth or the hidden layer number, and it is specified by an ordinary differential equation with a vector field. We interpret an ordinary DNN as a transport map or a Euler broken line approximation of the flow. Technically speaking, a dynamical system is a natural model for the nested feature maps. In addition, it opens a new way to the coordinate-free treatment of DNNs by avoiding the redundant parametrization of DNNs. Following Wasserstein geometry, we analyze a flow in three aspects: dynamical system, continuity equation, and Wasserstein gradient flow. A key finding is that we specified a series of transport maps of the denoising autoencoder (DAE). Starting from the shallow DAE, this paper develops three topics: the transport map of the deep DAE, the equivalence between the stacked DAE and the composition of DAEs, and the development of the double continuum limit or the integral representation of the flow representation. As partial answers to the research questions, we found that deeper DAEs converge faster and the extracted features are better; in addition, a deep Gaussian DAE transports mass to decrease the Shannon entropy of the data distribution.
研究动机与目标
- 为解决深度神经网络(DNNs)为何优于浅层模型的分析性理解不足问题。
- 通过提供一种无坐标系、可解释的中间层函数框架,解决DNN的黑箱特性。
- 建立深度的连续极限(而非宽度),将DNNs建模为受ODE控制的流。
- 利用Wasserstein几何分析DNNs,重点聚焦于动力系统、前推测度和Wasserstein梯度流。
- 通过传输映射分析,展示在去噪自编码器(DAEs)中深度的优势。
提出的方法
- 将DNNs建模为一系列近似由ODE定义的连续流的传输映射:$\dot{\bm{x}}_t = \bm{v}_t(\bm{x}_t)$。
- 将流表示定义为深度的连续极限,用向量场$\bm{v}_t$替代离散层。
- 应用Wasserstein几何,通过三种分析路径分析流:动力系统、连续性方程和Wasserstein梯度流。
- 使用ridgelet变换及其逆变换对浅层DAEs进行重参数化,并通过积分表示将方法扩展至深层DAEs。
- 推导出深度与宽度的双重连续极限,将浅层与深层DAEs统一为概率测度空间中的流。
- 利用Radon变换与ridgelet变换分析深层高斯DAEs中质量与熵的传输。
实验结果
研究问题
- RQ1为何更深的DNNs比浅层模型泛化性能更好?
- RQ2DNNs中中间层的功能角色是什么?
- RQ3如何对DNNs进行重参数化,以避免冗余且难以解释的参数?
- RQ4能否将DNN的深度建模为连续流?这对优化与泛化有何影响?
- RQ5数据分布质量通过隐藏层的传输如何影响熵与特征学习?
主要发现
- 与浅层模型相比,更深的DAEs在训练过程中收敛更快。
- 更深DAEs中提取的特征在潜在空间中更具判别性且分离得更好。
- 深层高斯DAE作为传输映射,可降低数据分布的香农熵,表明其数据表征能力得到提升。
- 流表示通过消除冗余参数化,实现了DNNs的无坐标系处理。
- DAE的传输映射等价于单个DAEs的复合,验证了深层网络的组合性质。
- 在深度与宽度的双重连续极限下,流的积分表示为标准DNNs提供了一种有原则且可解释的替代方案。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。