QUICK REVIEW

[论文解读] Loss Surfaces, Mode Connectivity, and Fast Ensembling of DNNs

Timur Garipov, Pavel Izmailov|arXiv (Cornell University)|Feb 27, 2018

Advanced Neural Network Applications参考文献 21被引用 212

一句话总结

该论文表明深度神经网络的极值通过简单的低损失曲线连接，并引入 Fast Geometric Ensembling (FGE) 来构建与单模型训练时间相当但多样性高、准确性高的集合。

ABSTRACT

The loss functions of deep neural networks are complex and their geometric properties are not well understood. We show that the optima of these complex loss functions are in fact connected by simple curves over which training and test accuracy are nearly constant. We introduce a training procedure to discover these high-accuracy pathways between modes. Inspired by this new geometric insight, we also propose a new ensembling method entitled Fast Geometric Ensembling (FGE). Using FGE we can train high-performing ensembles in the time required to train a single model. We achieve improved performance compared to the recent state-of-the-art Snapshot Ensembles, on CIFAR-10, CIFAR-100, and ImageNet.

研究动机与目标

理解 DNN 损失景观的几何结构，以及不同的最优解是否被低损失路径连接。
开发一种实用方法，找到模型最优解之间的高精度路径。
利用连通性洞见，提出一种高效的集成方法，提升预测性能。

提出的方法

提出一种曲线查找过程，在两个独立训练的网络之间的参数曲线上的平均损失最小化。
使用多边链和 Bezier 曲线作为曲线参数化，将两个权重向量连接起来。
优化一个目标，该目标通过沿曲线采样来近似曲线平均损失（ell 和 l 是两种变体）。
证明曲线端点可以在路径上保持接近恒定的训练损失和测试误差。

实验结果

研究问题

RQ1现代 DNN 最优解是否位于连接模态的低损失曲线上？
RQ2我们是否能在不同架构和数据集之间可靠地发现独立训练的网络之间的高准确路径？
RQ3是否可以利用几何洞见构建更好、更快的集成方法？
RQ4提出的集成方法与在标准基准上的 Snapshot Ensembles 有何比较？

主要发现

存在简单曲线（例如带一个转折的多段线或 Bezier 曲线）连接最优解，近似恒定的准确度。
在 CIFAR-10/100 及若干架构之间通过发现的路径，训练损失和测试误差保持低位。
连通曲线上的点提供有意义的不同表示，适合集合。
Fast Geometric Ensembling (FGE) 在与可比预算下，优于 CIFAR-10、CIFAR-100 和 ImageNet 的 Snapshot Ensembles 与独立训练。
在 ImageNet 的 ResNet-50 上，FGE 以仅 5 个 epochs 将 top-1 错误提升 0.56%。
FGE 在使用较小的权重空间步进之间实现强集成性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。