QUICK REVIEW

[论文解读] Knowledge Transfer with Jacobian Matching

Suraj Srinivas, François Fleuret|arXiv (Cornell University)|Mar 1, 2018

Reinforcement Learning in Robotics参考文献 20被引用 58

一句话总结

本文表明教师网络与学生网络之间的雅可比矩阵匹配等价于带输入噪声的蒸馏，推导出可实践的损失形式，并展示在蒸馏、噪声鲁棒性和迁移学习方面的改进。

ABSTRACT

Classical distillation methods transfer representations from a "teacher" neural network to a "student" network by matching their output activations. Recent methods also match the Jacobians, or the gradient of output activations with the input. However, this involves making some ad hoc decisions, in particular, the choice of the loss function. In this paper, we first establish an equivalence between Jacobian matching and distillation with input noise, from which we derive appropriate loss functions for Jacobian matching. We then rely on this analysis to apply Jacobian matching to transfer learning by establishing equivalence of a recent transfer learning procedure to distillation. We then show experimentally on standard image datasets that Jacobian-based penalties improve distillation, robustness to noisy inputs, and transfer learning.

研究动机与目标

用雅可比信息推动不同架构网络之间的知识迁移。
建立雅可比匹配与输入噪声基蒸馏之间的理论等价性。
推导适用于蒸馏和迁移学习的雅可比匹配的可实践损失函数。
通过实证证明基于雅可比的惩罚项可提升蒸馏效果、对噪声的鲁棒性以及迁移学习性能。

提出的方法

通过一阶泰勒展开推导出匹配雅可比矩阵等价于带输入噪声的蒸馏。
提出平方误差蒸馏损失，并在不同损失函数（平方误差和交叉熵）下推导雅可比正则化项。
引入对完整雅可比的实际近似（聚焦于与正确类别相关的输出或幅度最大的输出），以降低计算量。
将雅可比匹配整合到迁移学习框架中，包括与“遗忘学习”(LwF)和注意力图匹配的联系。
利用基于注意力图的近似和选择性雅可比计算，以实现跨架构的迁移学习。
在 CIFAR-100 蒸馏、噪声鲁棒性和 MIT Scenes 迁移学习上提供实证验证。

实验结果

研究问题

RQ1雅可比匹配是否可以被解释为带输入噪声的蒸馏？并且这种等价性对应哪种损失？
RQ2基于雅可比的正则化是否在蒸馏中提升性能，尤其是在数据稀少的情形下？
RQ3雅可比匹配是否能在任意架构之间有效应用于迁移学习？它与 LwF 和注意力图策略有何关系？
RQ4雅可比正则化是否提升对输入噪声的鲁棒性？
RQ5哪些实际近似能够在深度网络和跨架构场景中实现高效的雅可比匹配？

主要发现

# 每类的数据点数	交叉熵（CE）训练	CE + 对齐激活	CE + 匹配雅可比矩阵	CE + 同时匹配激活和雅可比矩阵	仅匹配激活	匹配激活 + 雅可比矩阵
1	5.69	12.13	6.78	13.78	10.73	13.09
5	13.90	26.97	23.94	33.39	28.56	33.31
10	20.03	33.92	32.03	39.55	33.60	38.16
50	37.60	46.47	45.71	49.49	45.73	47.79
100	44.92	50.92	51.47	52.43	50.15	50.06
500 (full)	54.28	56.65	53.44	54.57	56.59	51.33

雅可比匹配等价于带输入噪声的蒸馏，在损失中引入额外的雅可比正则化项。
在 CIFAR-100 的小数据蒸馏中，结合激活和雅可比矩阵相对于仅激活蒸馏提高了准确率，且仅用部分数据即可接近全数据性能。
雅可比范数惩罚提高对高斯噪声的鲁棒性，在噪声鲁棒性测试中优于标准的 L2 正则化和 dropout。
在迁移学习中，结合雅可比匹配（含激活和注意力）相对于仅激活的方法有提升，尤其是在低数据情形下。
在较浅的特征层进行雅可比损失的匹配可带来更好的迁移性能；将雅可比方法叠加到激活/注意力匹配上可持续改善结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。