QUICK REVIEW

[论文解读] Deep Transfer Learning with Joint Adaptation Networks

Mingsheng Long, Zhu Han|arXiv (Cornell University)|May 21, 2016

Domain Adaptation and Few-Shot Learning参考文献 42被引用 115

一句话总结

JAN 通过对跨域多层激活的联合分布进行对齐，使用联合最大平均距离 JMMD 标准，配合对抗变体 JAN-A 在训练期间最大化 JMMD。

ABSTRACT

Deep networks have been successfully applied to learn transferable features for adapting models from a source domain to a different target domain. In this paper, we present joint adaptation networks (JAN), which learn a transfer network by aligning the joint distributions of multiple domain-specific layers across domains based on a joint maximum mean discrepancy (JMMD) criterion. Adversarial training strategy is adopted to maximize JMMD such that the distributions of the source and target domains are made more distinguishable. Learning can be performed by stochastic gradient descent with the gradients computed by back-propagation in linear-time. Experiments testify that our model yields state of the art results on standard datasets.

研究动机与目标

动机：在输入和标签的联合分布在不同域之间发生变化时，推动无监督域自适应。
开发一个深度学习框架，对跨域特定层的联合激活进行对齐。
提出 JMMD 以衡量并最小化多层特征中联合分布的差异。
提供一个可端到端训练、与 SGD 兼容、用于可扩展深度迁移学习的方法。

提出的方法

引入 Joint Adaptation Networks (JAN)，使用 JMMD 对跨域特定层的激活联合分布进行对齐。
将 JMMD 定义为张量积 RKHS 中经验联合嵌入之间的平方距离。
提供用于小批量 SGD 的 JMMD 线性时间无偏估计。
在 JAN 中，最小化源分类损失以及对跨域特定层的 JMMD 惩罚，以自适应特征和分类器。
通过添加一个神经对手（θ）来最大化 JMMD，形成一个极小-极大目标，提出 JAN-A。
对适应权重 λ 使用渐进式调度以稳定训练。

实验结果

研究问题

RQ1跨域对多层激活的联合分布进行对齐是否能提高无监督域自适应的性能？
RQ2如何在深度网络中高效地计算和优化 JMMD 以实现端到端训练？
RQ3对抗性地最大化 JMMD（JAN-A）是否相对于标准 JAN 提供实际收益？
RQ4应对哪些网络层进行联合适应以在跨域中实现有效迁移？

主要发现

Model (Architecture)	A→W	D→W	W→D	A→D	D→A	W→A	Avg
JAN (AlexNet)	74.9 ± 0.3	96.6 ± 0.2	99.5 ± 0.2	71.8 ± 0.2	58.3 ± 0.3	55.0 ± 0.4	76.0
JAN-A (AlexNet)	75.2 ± 0.4	96.6 ± 0.2	99.6 ± 0.1	72.8 ± 0.3	57.5 ± 0.2	56.3 ± 0.2	76.3
JAN (ResNet)	?	?	?	?	?	?	?
JAN-A (ResNet)	?	?	?	?	?	?	?

与多种先前方法相比，JAN 和 JAN-A 在 Office-31 和 ImageCLEF-DA 基准测试上达到最新效果。
在 Office-31 上使用 AlexNet 与 ResNet 主干时，JAN 在跨域任务的平均准确率上优于若干基线方法（如 DAN、RTN、RevGrad）。
JAN 与 JAN-A 表明对高层激活的联合分布进行对齐的好处（AlexNet 的 fc6、 fc7、fc8；ResNet 的 pool5、fc）。
一个无偏的线性时间 JMMD 估计器使深度网络能与小批量 SGD 高效结合。
对抗性 JMMD（JAN-A）在性能上与 JAN 相当或略有改善，同时提高了训练稳定性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。