Skip to main content
QUICK REVIEW

[论文解读] Learning to Teach with Dynamic Loss Functions

Lijun Wu, Fei Tian|arXiv (Cornell University)|Oct 29, 2018
Machine Learning and Algorithms参考文献 42被引用 42
一句话总结

论文提出 L2T-DLF,是一个框架,在该框架中,神经教师输出动态损失函数以在训练过程中指导学生模型,通过基于梯度的反向模式微分优化,在图像分类和神经机器翻译中提升性能。

ABSTRACT

Teaching is critical to human society: it is with teaching that prospective students are educated and human civilization can be inherited and advanced. A good teacher not only provides his/her students with qualified teaching materials (e.g., textbooks), but also sets up appropriate learning objectives (e.g., course projects and exams) considering different situations of a student. When it comes to artificial intelligence, treating machine learning models as students, the loss functions that are optimized act as perfect counterparts of the learning objective set by the teacher. In this work, we explore the possibility of imitating human teaching behaviors by dynamically and automatically outputting appropriate loss functions to train machine learning models. Different from typical learning settings in which the loss function of a machine learning model is predefined and fixed, in our framework, the loss function of a machine learning model (we call it student) is defined by another machine learning model (we call it teacher). The ultimate goal of teacher model is cultivating the student to have better performance measured on development dataset. Towards that end, similar to human teaching, the teacher, a parametric model, dynamically outputs different loss functions that will be used and optimized by its student model at different training stages. We develop an efficient learning method for the teacher model that makes gradient based optimization possible, exempt of the ineffective solutions such as policy optimization. We name our method as "learning to teach with dynamic loss functions" (L2T-DLF for short). Extensive experiments on real world tasks including image classification and neural machine translation demonstrate that our method significantly improves the quality of various student models.

研究动机与目标

  • 在 AI 中激发并形式化损失函数教学的概念,类比于人类教学和考试。
  • 开发一个基于梯度的优化框架,以联合训练教师(损失函数生成器)和学生(学习者)。
  • 证明动态学习的损失函数在真实任务上能提升学生的表现。
  • 提供一个高效算法,能够使用反向模式微分对训练过程进行反向传播。

提出的方法

  • 定义一个学生模型 f_ω 和一个可学习的损失 l_Φ,通过 SGD 指导训练。
  • 引入一个教师模型 μ_θ,基于学生的状态 s_t 输出损失函数系数 Φ_t,从而在训练过程中实现动态损失函数。
  • 用来自学生输出 p_ω 的随机性将任务特定度量 m 的不可微分性放宽为一个连续代理,从而得到可微分的目标。
  • 应用反向模式微分(RMD)对整个训练过程进行反向传播,并推导教师参数的梯度 dθ。
  • 使用基于梯度的优化(如 Adam)来更新教师,迭代以最大化所得到的学生在开发集上的表现。
  • 在图像分类和神经机器翻译(NMT)中给出具体实现示例,包括如 l_Φ(p, y) = -σ(y^T Φ log p) 和基于注意力的 Φ_t 输出等损失形式。

实验结果

研究问题

  • RQ1一个神经教师是否能够学习输出有助于提升学生在开发集上的表现的损失函数,而不是固定损失?
  • RQ2如何高效地优化教师以使损失函数能够适应学生的不同训练阶段?
  • RQ3动态学习的损失函数是否能够在跨任务如图像分类和神经机器翻译上实现泛化?
  • RQ4在训练过程中可以得到哪些关于学习到的损失函数结构的见解?

主要发现

  • 教师学习的动态损失函数在多种学生架构和任务中带来改进。
  • 在 CIFAR-10 的多种模型上,教师增强的损失实现了更低的错误率,例如 WRN 在 CIFAR-10 上达到 3.42%,DenseNet-BC 在 CIFAR-10 上提升至 3.08%。
  • 在 MNIST 上,L2T-DLF 支持的训练在 MLP、LeNet 等模型上获得更低的错误率。
  • 在 NMT 任务(IWSLT-14 German→English)中,L2T-DLF 提高了 LSTM-1、LSTM-2 和 Transformer 学生的 BLEU 分数(例如 Transformer 从 34.01 提升到 34.80 BLEU)。
  • 学习到的损失系数 Φ_t 显示出阶段相关的聚焦效应,例如在早期促进易类别之间的相似性,在后期加强相似类别之间的区分。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。