[论文解读] Putting An End to End-to-End: Gradient-Isolated Learning of Representations
简要结论:我们提出 Greedy InfoMax (GIM),一种自监督、梯度隔离、逐层训练的方法,按模块优化互信息而非端到端反向传播,从而在音频和视觉任务中获得具有竞争力的表征,并实现异步、节省内存的训练。
We propose a novel deep learning method for local self-supervised representation learning that does not require labels nor end-to-end backpropagation but exploits the natural order in data instead. Inspired by the observation that biological neural networks appear to learn without backpropagating a global error signal, we split a deep neural network into a stack of gradient-isolated modules. Each module is trained to maximally preserve the information of its inputs using the InfoNCE bound from Oord et al. [2018]. Despite this greedy training, we demonstrate that each module improves upon the output of its predecessor, and that the representations created by the top module yield highly competitive results on downstream classification tasks in the audio and visual domain. The proposal enables optimizing modules asynchronously, allowing large-scale distributed training of very deep neural networks on unlabelled datasets.
研究动机与目标
- 在没有标签或全局端到端反向传播的情况下激发学习表征。
- 开发受信息保留原理启发的贪心、模块化训练方案。
- 证明局部训练的模块能够共同产生强大的下游表现。
- 展示在非常深的网络中对内存效率和异步训练的实际益处。
提出的方法
- 将深度网络分割为梯度隔离的模块,并使用梯度阻塞算子防止模块间反向传播。
- 用局部 InfoNCE 损失训练每个模块,以最大化其输入与输出之间的信息保留。
- 使用模块局部对比损失 f_k^m(z_{t+k}^m,z_t^m) 结合 Eq. (3)–(4) 最大化互信息。
- 可选地附加一个自回归上下文模块 g_ar 以聚合更广泛的时间或空间上下文(Eq. (6))。
- 在模块训练之后,丢弃局部评分函数,使用堆叠的编码器作为下游特征;可选地训练一个单独的上下文模块。
- 论证迭代的互信息最大化鼓励跨层的非退化且信息丰富的表征。
实验结果
研究问题
- RQ1是否可以在不进行端到端反向传播的情况下,采用逐层贪心(梯度隔离)方式有效优化互信息最大化?
- RQ2贪心训练的模块是否会在视觉和音频的下游任务中逐步提升表征?
- RQ3与端到端方法相比,梯度隔离学习在内存与训练效率上有哪些权衡?
- RQ4添加自回归上下文模块如何影响需要更广泛上下文的任务的性能?
主要发现
| 方法 | Phone Classification Accuracy (%) | Speaker Classification Accuracy (%) |
|---|---|---|
| Randomly initialized | 27.6 | 1.9 |
| MFCC features | 39.7 | 17.6 |
| Supervised | 77.7 | 98.9 |
| Greedy Supervised | 73.4 | 98.7 |
| CPC [Oord et al., 2018] | 64.9 | 99.6 |
| Greedy InfoMax (GIM) | 62.5 | 99.4 |
| GIM without BPTT | 55.5 | - |
| GIM without g_ar | 50.8 | - |
- GIM 在 STL-10 图像分类任务上无需端到端反向传播就实现了竞争性下游表现(81.9% ±0.3 与 CPC 的 80.5% ±3.1 相比)。
- GIM 在有限标签条件下优于若干自监督基线并与有监督方法相当,体现了强大的表征质量。
- 消融表明自回归模块在具有时间/上下文依赖的任务中有益;移除 BPTT 或 ar 模块可能降低此类任务的性能。
- 贪心的逐层 InfoNCE 训练提升了中间表征,每个模块在下游说话人分类任务上均优于其前一模块。
- GIM 实现内存高效、异步训练;训练三个模块相较端到端训练可使 GPU 内存使用量降低约 2.8 倍。
- 在 LibriSpeech 中,GIM 达到 99.4% 的说话人分类准确率和 62.5% 的音素分类准确率,消融结果显示去除 BPTT 或自回归组件时会下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。