Skip to main content
QUICK REVIEW

[论文解读] Deep Networks on Toroids: Removing Symmetries Reveals the Structure of Flat Regions in the Landscape Geometry

Fabrizio Pittorino, Antonio Ferraro|arXiv (Cornell University)|Jan 1, 2022
Advanced Neural Network Applications参考文献 41被引用 7
一句话总结

本文提出了一种几何框架,通过标准化参数化消除参数对称性,对深度神经网络损失景观进行分析,从而获得环面拓扑结构。通过在函数空间而非参数空间中研究误差景观,作者发现更平坦的极小值点之间连接性更强、距离更近,并通过低势垒相连;不同优化算法得到的极小值点也通过简单的多边形路径相连——这支持了在过参数化网络中平坦性、泛化能力与连通性之间存在强关联。

ABSTRACT

We systematize the approach to the investigation of deep neural network landscapes by basing it on the geometry of the space of implemented functions rather than the space of parameters. Grouping classifiers into equivalence classes, we develop a standardized parameterization in which all symmetries are removed, resulting in a toroidal topology. On this space, we explore the error landscape rather than the loss. This lets us derive a meaningful notion of the flatness of minimizers and of the geodesic paths connecting them. Using different optimization algorithms that sample minimizers with different flatness we study the mode connectivity and relative distances. Testing a variety of state-of-the-art architectures and benchmark datasets, we confirm the correlation between flatness and generalization performance; we further show that in function space flatter minima are closer to each other and that the barriers along the geodesics connecting them are small. We also find that minimizers found by variants of gradient descent can be connected by zero-error paths composed of two straight lines in parameter space, i.e. polygonal chains with a single bend. We observe similar qualitative results in neural networks with binary weights and activations, providing one of the first results concerning the connectivity in this setting. Our results hinge on symmetry removal, and are in remarkable agreement with the rich phenomenology described by some recent analytical studies performed on simple shallow models.

研究动机与目标

  • 为解决神经网络景观中参数空间几何与功能行为之间的脱节问题。
  • 解决由于权重参数化中的冗余对称性导致的平坦度与连通性测量模糊性问题。
  • 建立一种标准化的、无对称性的几何框架,用于分析误差景观。
  • 通过实证研究,探讨过参数化网络中平坦性、泛化能力与连通性之间的关系。
  • 将洞察拓展至二值权重网络,为该设置提供首批连通性分析之一。

提出的方法

  • 作者基于函数等价性定义神经网络的等价类,将实现相同输入-输出映射的网络归为一类。
  • 应用一种标准化参数化方法,消除隐藏单元和滤波器中的连续尺度不变性与离散排列对称性。
  • 由此得到一个环面拓扑空间,其中参数空间被对称群商化,从而实现明确定义的几何描述。
  • 在该无对称性的函数空间中分析误差景观,利用所得黎曼度量计算平坦度与测地线距离。
  • 使用优化算法(SGD、RSGD、ADV)采样不同平坦度的极小值点,再通过测地线路径与线性插值进行比较。
  • 对于二值网络,使用内部连续权重投影景观,随后进行二值化以计算训练误差。

实验结果

研究问题

  • RQ1在参数空间中消除对称性后,如何影响深度神经网络误差景观的几何结构?
  • RQ2极小值点的平坦度与其在函数空间中的连通性之间存在何种关系?
  • RQ3在消除对称性后,是否可以证明更平坦的极小值点在误差景观中更接近且通过更低的势垒相连?
  • RQ4不同优化算法是否在无对称性空间中以结构化方式生成几何上连通的极小值点?
  • RQ5与全精度模型相比,二值权重神经网络中的连通性与势垒结构有何不同?

主要发现

  • 在无对称性函数空间中,误差景观中更平坦的极小值点始终彼此更接近,测地线距离显著减小。
  • 由不同优化算法(如 SGD、RSGD 和 ADV)找到的极小值点可通过测地线路径以低势垒相连,表明景观具有高度连通性。
  • 在消除对称性后,极小值点之间测地线路径上的势垒显著降低,尤其在路径被优化时更为明显。
  • 来自不同平坦度水平的极小值点可通过由参数空间中两条直线段组成的零误差多边形路径相连,表明其具有简单的几何结构。
  • 在二值权重网络中,观察到类似的连通性与低势垒结构,证实了该框架对权重量化具有鲁棒性。
  • 结果支持一种猜想:宽广且平坦的解区域形成类似乌贼的结构,具有密集的中心簇与分支状、更尖锐的极小值点。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。