QUICK REVIEW

[论文解读] Transferring Knowledge across Learning Processes

Sebastian Flennerhag, Pablo García Moreno|arXiv (Cornell University)|Dec 3, 2018

Innovative Teaching and Learning Methods被引用 39

一句话总结

Leap 提出了一种元学习框架，通过最小化损失流形上梯度路径的期望长度，在学习过程中实现知识迁移，从而在复杂且训练时间长的任务中实现高效迁移。该方法在视觉和强化学习任务中，包括需要数百万梯度步数的 Atari 游戏中，优于标准微调和元学习者，其优势源于利用了训练轨迹的几何结构，而无需额外的反向传播。

ABSTRACT

In complex transfer learning scenarios new tasks might not be tightly linked to previous tasks. Approaches that transfer information contained only in the final parameters of a source model will therefore struggle. Instead, transfer learning at a higher level of abstraction is needed. We propose Leap, a framework that achieves this by transferring knowledge across learning processes. We associate each task with a manifold on which the training process travels from initialization to final parameters and construct a meta-learning objective that minimizes the expected length of this path. Our framework leverages only information obtained during training and can be computed on the fly at negligible cost. We demonstrate that our framework outperforms competing methods, both in meta-learning and transfer learning, on a set of computer vision tasks. Finally, we demonstrate that Leap can transfer knowledge across learning processes in demanding reinforcement learning environments (Atari) that involve millions of gradient steps.

研究动机与目标

为解决传统迁移学习的局限性，后者依赖参数相似性，当源任务与目标任务缺乏结构亲和性时即失效。
在复杂且训练时间长的场景中实现知识迁移，此时少样本或基于参数的方法因优化过程中的灾难性信息丢失而失效。
将迁移学习形式化为基于训练轨迹几何结构的元学习问题，而不仅仅是最终模型参数。
开发一种轻量级、实时运行的方法，仅使用训练过程中的信息，避免对整个优化路径进行代价高昂的反向传播。
展示在状态空间或动作空间大小显著不同的分布外任务中，所迁移知识的泛化能力，例如强化学习中更大的状态空间。

提出的方法

Leap 将每个学习过程建模为损失流形上的一条路径，参数化为训练过程中模型权重的轨迹。
它定义了一个元学习目标，通过使用如能量度量 $d_2$ 这类几何距离度量，最小化跨任务的这些梯度路径的期望长度。
该框架在训练过程中完全实时运行，除标准优化外无需额外的前向或反向传播。
它利用损失曲面和参数轨迹所捕获的梯度路径几何结构，推断任务之间的共享归纳偏置。
该方法对优化器选择保持无关，支持使用可调预条件矩阵 $S^i$ 和学习率调度 $\alpha^i$ 的标准 SGD、Adam 或自然梯度。
Leap 通过学习一种能导致损失流形上更短期望路径的初始化方式实现知识迁移，从而提升新任务上的收敛速度和性能。

实验结果

研究问题

RQ1是否可以通过建模学习过程的几何结构而非依赖最终模型参数，实现有效的知识迁移？
RQ2在复杂且训练时间长的任务中，最小化损失流形上梯度路径的期望长度是否能带来更好的泛化性能？
RQ3基于路径长度的轻量级元学习框架是否能在视觉和强化学习任务中优于标准微调和现有元学习者？
RQ4在底层学习动态一致的情况下，是否能在状态空间或动作空间大小不同的分布外任务中实现对训练动态层面知识迁移的泛化？
RQ5Leap 是否能扩展到需要数百万梯度步数的强化学习环境（如 Atari 2600），而无需对完整训练过程进行反向传播？

主要发现

在 Multi-CV 基准的 11 项迁移学习任务中，Leap 在 10 项上优于随机初始化、微调、HAT 和 Progressive Nets，收敛更快且最终准确率更高。
在 Facescrub 数据集上，Leap 略逊于随机初始化，但此为例外；在其余所有任务中，它显著优于微调和 HAT，后者均出现性能下降。
Leap 在 Atari 2600 游戏中表现优异，包括分布外任务如 Alien、Gravitar 和 RoadRunner，这些任务的状态空间比预训练游戏大至 50%。
Atari 中的性能提升主要源于更稳定、波动更小的探索行为，如在十个随机种子下训练曲线的置信区间更紧密所显示。
当底层学习动态一致时，Leap 能泛化到未见的任务变体，表明基于训练过程几何结构的迁移可实现稳健的零样本泛化。
仅使用单个路径采样周期（五百万步/任务）和能量度量 ($d_2$) 进行元训练，即可达到与更长路径训练相当的性能，表明部分轨迹足以实现有效结构推断。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。