QUICK REVIEW

[论文解读] Failures of Gradient-Based Deep Learning

Shai Shalev‐Shwartz, Ohad Shamir|arXiv (Cornell University)|Mar 23, 2017

Domain Adaptation and Few-Shot Learning参考文献 23被引用 70

一句话总结

该论文识别了四个简单的问题族，在这些问题族中基于梯度的学习难以或失败，分析源头（信噪比、条件数、端到端与分解、平坦激活），并提出补救方法，如架构变更和非梯度更新。

ABSTRACT

In recent years, Deep Learning has become the go-to solution for a broad range of applications, often outperforming state-of-the-art. However, it is important, for both theoreticians and practitioners, to gain a deeper understanding of the difficulties and limitations associated with common approaches and algorithms. We describe four types of simple problems, for which the gradient-based algorithms commonly used in deep learning either fail or suffer from significant difficulties. We illustrate the failures through practical experiments, and provide theoretical insights explaining their source, and how they might be remedied.

研究动机与目标

解释为何梯度基方法在简单学习问题上可能失败，无论架构如何。
表征梯度信息量不足的来源，包括信号/噪声比与条件数。
比较端到端与分解方法及它们对梯度信息量和训练时间的影响。
展示架构与条件对简单任务优化效率的影响。

提出的方法

研究奇偶性与线性周期函数，以表明梯度方差在维度上可能呈指数级小。
在受控的基于CNN的视觉任务中分析端到端与分解方法并推导性能差距。
评估网络架构（全连接与卷积）如何改变条件数与训练速度。
研究因平坦激活导致的梯度消失，并提出非梯度更新或有条件的更新。
给出理论界限（Var(H,F,w)）和经验信噪比分析以解释失效模式。
提供条件化技术以在线性/凸设定中改善收敛，并以PWL曲线编码来说明。

实验结果

研究问题

RQ1梯度信息是否对某些目标函数族（如随机奇偶性和线性周期函数）而言非信息性？
RQ2端到端训练在梯度质量与训练效率方面与分解方法相比如何？
RQ3在多大程度上网络架构与条件数影响简单问题的优化速度与成功率？
RQ4在平坦激活存在时，非梯度更新是否能克服普通梯度下降的局限？
RQ5哪些补救措施（架构、条件化、分解）在实践中能缓解基于梯度的失败？

主要发现

对许多目标函数而言，梯度信息可以几乎没有信息量，使基于梯度的学习在无论架构如何都失败。
端到端训练在问题规模增大时可能显著更慢或失败，相比之下，分解方法通过中间目标引导学习。
卷积架构和条件化技术在对分段线性函数进行编码时显著提高优化速度，减少迭代需求。
在某些简单问题上，单纯更深或更宽的网络并不一定能克服梯度信息量不足的问题。
具有平坦区域的激活函数会导致梯度消失，但替代更新规则可以在某些函数族上实现收敛并提供保证。
理论界限表明，对于类似奇偶性的目标，梯度方差在维度上可能呈指数级小，解释了学习失败。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。