QUICK REVIEW

[论文解读] Curriculum Learning by Transfer Learning: Theory and Experiments with Deep Networks

Daphna Weinshall, Gad Cohen|arXiv (Cornell University)|Feb 11, 2018

Domain Adaptation and Few-Shot Learning参考文献 17被引用 78

一句话总结

本文提供理论分析，表明在凸线性回归的 SGD 收敛中，课程学习能够加速收敛，并通过深度网络的示例证明，基于迁移的课程调度可以提升早期训练速度，并在更困难的任务或强正则化下改善泛化能力。

ABSTRACT

We provide theoretical investigation of curriculum learning in the context of stochastic gradient descent when optimizing the convex linear regression loss. We prove that the rate of convergence of an ideal curriculum learning method is monotonically increasing with the difficulty of the examples. Moreover, among all equally difficult points, convergence is faster when using points which incur higher loss with respect to the current hypothesis. We then analyze curriculum learning in the context of training a CNN. We describe a method which infers the curriculum by way of transfer learning from another network, pre-trained on a different task. While this approach can only approximate the ideal curriculum, we observe empirically similar behavior to the one predicted by the theory, namely, a significant boost in convergence speed at the beginning of training. When the task is made more difficult, improvement in generalization performance is also observed. Finally, curriculum learning exhibits robustness against unfavorable conditions such as excessive regularization.

研究动机与目标

将课程学习作为受人类学习和以往工作启发的结构化训练范式进行动机阐述。
理论分析用于凸线性回归的随机课程学习并确立收敛性收益。
提出一种基于迁移的课程方法，使用预训练分类器的置信度对训练样本进行排序。
在深度网络中进行经验验证，展示更快的初始收敛和在具有挑战性的设置下潜在的泛化提升。

提出的方法

将训练点的理想难度分数定义为它们相对于最优分类器的损失。
提出随机课程学习（SCL），早期偏向采样较容易的样本，逐步放松偏向。
分析线性回归损失上的 SGD，证明对较容易样本的收敛速率单调更快，并且在某些步长条件下，当前损失越大越快。
提出一种课程方法，通过分类器的 margin，结合来自更大预训练网络的知识迁移，对样本按难度进行排序。
探索两种调度变体：固定型（逐步增加更难样本的纳入）和自适应型（步长随当前损失变化）。
在两种架构（Large 与 Small）的 CNN 以及数据集 CIFAR-100 和 STL-10 上进行评估，比较课程学习、随机排序、反课程学习以及基线无课程训练。

实验结果

研究问题

RQ1课程学习是否在理论上加速凸线性回归的 SGD 收敛？
RQ2基于迁移的训练样本排序是否能近似理想课程并加速深度网络训练？
RQ3课程调度如何影响泛化，特别是在困难任务、较小的模型或强正则化下？
RQ4按来自预训练模型而不是人类提供的困难度来对样本进行排序是否更有利？
RQ5固定型与自适应型调度策略是否会带来不同的实验结果？

主要发现

理论上，期望收敛速率对样本的难度分数呈单调递减，即较容易的样本获得更快的收敛。
在学习率足够小时，使用课程采样时，训练开始阶段的收敛速度会提高。
经验上，在深度网络中，较容易样本的梯度在训练初期与真实梯度更接近，并在若干个时期后，这一对齐进一步改善。
使用预训练模型的 margin 作为难度估计的基于迁移的课程能够带来更快的初始学习，并且在困难任务、较小的网络或更强的正则化下可以改善泛化。
课程学习在过度正则化等不利条件下表现出鲁棒性，在某些设置中能超过反课程和随机排序对照组。
与对照组相比，该方法在 CIFAR-100 和 STL-10 上显示出一致的早期训练加速和潜在的泛化提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。