QUICK REVIEW

[论文解读] Mathematics of Deep Learning

Renè Vidal, Joan Bruna|arXiv (Cornell University)|Dec 13, 2017

Sparse and Compressive Sensing Techniques参考文献 64被引用 79

一句话总结

一份教程，总结深度网络的数学论证，涵盖全局最优性、稳定性、不变性、结构以及表征的信息理论层面。

ABSTRACT

Recently there has been a dramatic increase in the performance of recognition systems due to the introduction of deep architectures for representation learning and classification. However, the mathematical reasons for this success remain elusive. This tutorial will review recent work that aims to provide a mathematical justification for several properties of deep networks, such as global optimality, geometric stability, and invariance of the learned representations.

研究动机与目标

解释深层结构如何逼近任意函数，以及为何深度有助于不变性和泛化。
综述优化势场、全局最优性结果，以及与正则化和 SGD 行为的联系。
讨论卷积神经网络(CNNs)和散射网络的几何稳定性和不变性属性。
概述将数据几何、泛化和表示学习联系起来的结构化理论。
引入关于表示与正则化的信息理论视角。

提出的方法

将深度网络建模为线性变换与非线性激活函数的组合；形式化输入–输出映射 Phi(X, W)。
回顾网络的全局最优性结果，包括正齐次结构及确保全局极小值的条件。
讨论高维中的优化势垒和 SGD 行为，包括鞍点和平坦极小值。
通过对平移和形变的不变性展示几何稳定性，CNNs 与散射网络是关键示例。
分析数据几何在随机权重网络中的传播及对度量保持和泛化的影响。
讨论信息理论表示与正则化，包括信息瓶颈和信息丢弃。

实验结果

研究问题

RQ1在非凸性存在的情况下，深度网络在何种条件下仍能具有全局极小值？
RQ2深度、不变性和几何先验如何促成泛化与稳定性？
RQ3随机权重与结构化表示在跨层保持数据几何中的作用是什么？
RQ4信息理论原理如何为学习表示的正则化和鲁棒性提供指导？

主要发现

对于具有足够大规模且组分为正齐次的网络，某些临界点是全局极小值或鞍点，从而解释 ReLU 网络的经验成功。
卷积结构本质上提供平稳性和形变稳定性，使可扩展的样本复杂性成为可能。
随机权重网络在跨层保持数据几何，支持稳定的恢复和基于角度的类别分离。
信息理论方法（如信息瓶颈）提供正则化，产生解耦表示并可能带来鲁棒性收益。
在非凸、高维势垒下的 SGD 倾向于找到平坦极小值，可能避免坏的局部极小值，与基于 PDE 的解释相关。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。